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内 容 提要 


本 书 是 一 本 广 受 好 评 的 Cassandra 图 书 。 与 传统 的 关系 型 数据 库 不 同 ，Cassandra 是 一 种 开 
源 的 分 布 式 存储 系统 。 书 中 介绍 了 它 无 中 心 架构 、 高 可 用 、 无 颖 扩展 等 引 人 注 目的 特点 ， 讲 述 
了 如 何 安 装 、 配 置 Cassandra 及 如 何在 其 上 运行 实例 ， 还 介绍 了 对 它 的 监控 、 维 护 和 性 能 调 优 手 
段 ， 同 时 还 涉及 了 Cassandra 相关 的 集成 工具 Hadoop 及 其 类 似 的 其 他 NoSQL 数据 库 。 

本 书 适合 数据 库 开发 人 员 与 网 站 开发 者 阅读 。 
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详 者 序 


对 于 一 位 分 布 式 存储 系统 的 开发 者 ，Cassandra 无 疑 是 非常 引 人 注 目的 ， 它 的 无 中 心 
架构 、 高 可 用 性 、 无 颖 扩展 等 继承 自 亚马逊 Dynamo 的 特质 ， 相 对 于 其 他 主 从 架构 的 
NoSQL 系统 更 加 人 简洁， 也 更 具有 美感 。 


我 从 2010 年 初 开始 关注 这 个 系统 ， 并 翻译 过 儿 篇 Cassandra 相关 的 文章 ， 还 引起 一 些 
读者 热烈 的 讨论 。2010 年 底 ， 当 刘 江 老师 为 本 书 寻 找 译 者 时 ， 我 按 探 不 住 ， 毛 送 自 
荐 ， 并 随后 在 2011 年 1 月 中 下 旬 开 始 了 本 书 的 翻译 工作 。 我 用 了 三 个 月 的 业余 时 间 ， 
终于 在 4 月 份 完成 了 译 稿 。 因 为 Cassandra 仍 在 快速 开发 中 ， 翻 译 时 我 也 尽力 争取 快 
一 些 ， 以 便 能 让 中 文 版 出 版 时 不 至 于 落伍 。 


本 书 对 Cassandra 的 概念 、 架 构 、 配 置 、 使 用 进行 了 全 面 的 介绍 ， 非 党 详尽， 而 且 给 
出 了 很 多 参考 信息 。 对 于 希望 了 解 Cassandra、 评 估 Cassandra 是 否 是 适合 自己 的 应 
用 ， 以 及 开始 着 手 在 Cassandra 上 进行 应 用 开发 的 人 都 是 不 错 的 读物 。 当 然 ， 如 果 想 
参与 Cassandra 的 开发 或 做 更 深入 的 工作 ， 还 需要 直接 通过 源 代 码 来 获取 更 详尽 的 信 
自 
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在 翻译 中 ， 我 尽力 使 用 已 有 的 、 被 广泛 接受 的 名 词 或 术语 ， 对 于 一 些 译 法 没有 被 广泛 
接受 的 术语 ， 在 不 产生 歧义 的 前 提 下 ， 我 会 选择 一 个 自 以 为 恰当 的 词 ， 有 了 时 还 会 给 
英文 ， 以 避免 读者 不 能 将 代码 和 本 书 给 出 的 名 词 对 应 上 。 还 有 一 些 名 词 尚 没有 贴切 的 
中 文 译 法 ， 或 是 译 出 容易 产生 歧义 ， 或 是 国内 开发 者 已 习惯 使 用 英文 ， 这 时 我 在 翻译 
中 保留 了 英文 原文 。 这 些 选 择 都 以 帮助 理解 、 避 免 歧 义 为 首要 考虑 。 


本 书 的 翻译 工作 得 到 了 很 多 朋友 和 网 友 的 关注 ， 和 希望 没有 让 他 们 久 等 。 我 的 同事 郭 磊 
涛 ， 作 为 数据 库 和 HBase 的 专家 、Cassandra 用 户 ， 在 本 书 的 翻译 过 程 中 给 予 了 很 多 
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有 益 的 帮助 。 感 谢 现在 CSDN 的 刘 江 老师 ， 给 我 这 个 机 会 把 Cassandra 介绍 给 大 家 。 
当然 ， 还 要 感谢 图 灵 的 编辑 杨 海 伶 、 传 志 红 ， 还 有 李 松 峰 在 本 书 的 翻译 过 程 中 做 了 大 
量 的 细心 工作 。 








希望 本 书 的 翻译 出 版 能 对 读者 进入 NoSQL 的 世界 、 开 始 自己 的 Cassandra 应 用 有 些许 
的 帮助 。 
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Cassandra 是 Facebook F 2008 年 7 月 开源 的 项 目 。 它 最 早 的 版 本 主要 是 由 一 位 亚 马 
进 前 雇员 和 一 位 微软 的 工程 师 写成 的 。 这 个 系统 受到 了 亚马逊 前 卫 的 键 / 值 存 储 系 
统 Dynamo 的 巨大 影响 。Cassandra 实现 了 Dynamo 风格 的 副本 复制 模型 和 没有 单 点 
失效 的 架构 ， 但 增加 了 更 为 强大 的 “ 列 族 ” 数 据 模型 。 


当年 12 月 ， 在 Rackspace 要 求 我 帮 他 们 建立 一 个 可 扩展 的 数据 库 的 时 候 ， 我 加 入 到 
这 个 项 目 之 中 。 那 是 个 很 好 的 时 机 ， 因 为 今天 所 有 重要 的 开源 可 扩展 数据 库 在 那 时 
都 有 了 ， 可 以 做 做 比较 。 尽 管 最 初 Cassandra 只 有 一 个 主要 的 应 用 案例 ， 但 它 的 底 
层 架 构 是 最 强大 的 ， 于 是 ， 我 致力 于 改进 代码 ， 同 时 建立 一 个 社区 。 








之 后 ，Cassandra 被 接纳 为 Apache 的 孵化 器 项 目 ， 并 于 2010 年 3 月 毕业 成 为 顶 
级 项 目 。 此 时 它 已 经 成 为 了 一 个 真实 的 开源 软件 的 成 功 案例 ，Rackspace、Digg、 
Twitter 等 公司 都 成 了 忠实 的 用 户 ， 他 们 不 愿意 从 零 开始 写 自己 的 数据 库 ， 但 却 希 望 
一 起 来 构建 一 个 更 优秀 的 系统 。 


今天 的 Cassandra 已 经 远 不 止 是 当初 那个 (现在 也 还 在 ) 用 来 驱动 Facebook 的 收 件 
箱 搜 索 的 系统 了 ， 按 照 Tony Bain 的 说 法 ， 它 已 经 成 为 了 “事务 处 理性 能 的 不 二 赢 
家 ”， 而 且 在 可 靠 性 和 可 扩展 性 方面 具有 显赫 的 声誉 。 

随 着 Cassandra 逐渐 成 熟 并 获得 了 更 多 的 主流 用 户 ， 我 们 显然 有 为 它 提供 商业 支持 的 
需要 ， 于 是 ，Matt Pfeil 和 我 在 2010 年 4 月 共同 创立 了 Riptano。 帮 助 推动 Cassandra 
的 应 用 具有 丰富 的 回报 ， 特 别 是 可 以 看 到 更 多 的 还 没有 被 公开 讨论 过 的 应 用 。 


另 一 个 需求 就 是 一 本 关于 Cassandra 的 书 。 和 很 多 开源 项 目 一 样 ，Cassandra 的 文档 一 
直 就 是 一 个 弱项 。 而 且 即 使 是 文档 最 终 得 到 了 改善 ， 一 本 这 样 的 书 仍然 会 非常 有 用 。 
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感谢 Eben 来 承担 这 项 集 艺 术 与 科学 于 一 身 的 艰巨 任务 ， 讲 解 Cassandra 的 开发 与 部 
署 。 读 者 朋友 现在 有 机 会 可 以 有 条 理 地 学 习 这 些 新 概念 了 。 





— —Jonathan Ellis 


Apache Cassandra 项 目 主席 、Riptano 联合 创始 人 
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选择 Apache Cassandra 


Apache Cassandra 是 一 个 自由 、 开 源 的 分 布 式 数据 存储 系统 ， 与 传统 的 关系 型 数据 
库 管 理 系 统 截 然 不 同 。 


Cassandra 在 2009 年 1 月 成 为 了 Apache 基 金 会 的 一 个 旷 化 器 项 目 。 不 入， 以 
Apache Cassandra 项 目 主席 Jonathan Ellis 为 首 的 开发 者 们 发 布 了 Cassandra 0.3, 
随后 稳定 不 断 地 发 布 新 的 小 版 本 。 虽 然 Cassandra 在 本 书 完成 时 仍然 没有 达到 1.0 
发 布 版 本 ， 但 已 经 被 互联 网 领域 的 很 多 巨头 使 用 在 了 生产 系统 之 中 ， 他 们 包括 
Facebook、Twitter、Cisco、Rackspace、Digg、Cloudkick、Reddit 等 。 








因为 它 非 常 出 色 的 技术 特性 ，Cassandra 已 经 变 得 非常 受 欢 迎 了 。 它 具有 持久 性 、 无 
颖 扩展 性 、 可 调 的 一 致 性 。 它 的 写 操作 非常 快 ， 可 以 存储 上 百 TB 数据 ， 而 且 是 无 
中 心 的 和 对 称 的 ， 所 以 不 会 有 单 点 失效 。 它 还 是 高 度 可 用 的 ， 提 供 了 无 schema 的 
数据 模型 。 


目标 读者 

本 书 适用 于 各 类 读者 。 它 对 以 下 读者 都 会 非常 有 用 。 

。 大 规模 、 高 容量 网 站 的 开发 者 ， 比 如 Web 2.0 的 社交 应 用 。 

。 需要 理解 这 个 高 性 能 、 无 中 心 、 弹 性 数据 存储 系统 的 应 用 架构 师 或 数据 架构 师 。 

。 希望 理解 如 何 实现 容错 、 最 终 一 致 的 数据 存储 系统 的 标准 关系 型 数据 库 系统 管理 员 
或 开发 者 。 
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。 希望 了 解 Cassandra 的 优势 (和 不 足 ) 以 及 其 他 相关 的 列 数据 库 ， 以 帮助 进行 技术 
路 线 选择 的 管理 者 。 
。 正在 进行 Cassandra 或 其 他 非 关 系 型 数据 库 相 关 项 目的 学 生 、 分 析 师 或 研究 员 。 


本 书 是 一 本 技术 指南 。 从 某 种 意义 上 说 ，Cassandra 代表 了 一 种 对 数据 的 新 的 思 
75. EIKKI 15 ~ 20 年 间 ， 很 多 合格 的 职业 开发 者 都 在 使 用 纯粹 的 关系 型 或 是 面 
向 对 象 的 术语 来 描述 他 们 的 数据 。Cassandra 的 数据 模型 与 此 非常 不 同 ， 起 先 可 能 
很 难 吸 引 你 ， 特 别 是 对 于 数据 库 (应 该 ) 是 什么 已 经 有 了 先入 为 主 的 概念 的 人 ， 更 
是 如 此 。 


使 用 Cassandra 并 不 意味 着 你 必须 成 为 一 个 Java 开发 者 。 不 过 ，Cassandra 是 用 
Java 开发 的 ， 所 以 车 要 深入 分 析 源 代码 ， 你 需要 对 Java 语言 有 更 坚实 的 理解 。 虽 
然 不 一 定 需要 懂得 Java, fH Java 可 以 帮助 你 更 好 地 了 解 异常 、 学 会 如 何 编译 源码 以 
及 使 用 一 些 流 行 的 客户 端 。 本 书 中 的 很 多 例子 都 是 用 Java 写成 的 。 尽 管 如 此 ， 因 为 
Cassandra 使 用 了 语言 中 立 的 RPC 接口 ， 所 以 你 可 以 使 用 多 种 语言 来 开发 Cassandra 
应 用 ， 包 括 Cf, Scala, Python 以 及 Ruby 等 。 


最 后 ， 本 书 假设 读者 已 经 了 解 了 Web 是 如 何 工作 的 ， 能 够 使 用 集成 开发 环境 ， 并 
对 数据 驱动 的 应 用 的 典型 问题 有 某 些 了 解 。 你 可 能 是 一 个 经 验 丰富 的 开发 者 或 管理 
员 ， 但 是 对 于 在 Cassandra 的 世界 里 使 用 到 的 工具 可 能 偶尔 也 不 是 非常 熟悉 。 比 如 
Cassandra 使 用 Apache Ivy 进行 编译 ， 而 用 一 个 流行 的 客户 端 (Hector) 使 用 Git 进 
行 版 本 管理 。 当 我 感到 你 可 能 需要 自己 进行 一 些 设置 才能 运行 一 个 例子 的 时 候 ， 我 
会 尽量 予以 说 明 。 


本 书 的 结构 


本 书 把 每 章 合理 地 设计 为 一 个 个 独立 的 指南 。 因 为 本 书 是 介绍 Cassandra 的 ， 读 者 
们 可 能 背景 各 异 ， 而 且 技术 变化 很 快 ， 所 以 这 么 处 理 非 常 重要 。 借 用 一 个 软件 界 的 
说 法 ， 我 希望 本 书 能 够 有 点 儿 “ 模 块 化 。 如 果 你 是 一 个 Cassandra 新 人 人， 那么 可 以 
按照 顺序 阅读 ， 而 如 果 你 已 经 有 所 了 解 ， 不 需要 介绍 了 ， 那 么 也 可 以 在 后 面 的 童 市 
里 找到 有 价值 的 内 容 ， 把 它们 当做 独立 的 指南 来 看 。 


本 书 的 具体 结构 是 这 样 的 。 
































。 第 1 Æ Cassandra 概况 
这 一 章 介 绍 了 Cassandra， 并 讨论 了 它 与 众 不 同 的 特质 、 优 势 和 目前 的 用 户 。 
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。 第 2 章 安装 Cassandra 
在 这 一 章 中 ， 作 者 会 带 你 在 不 同 平台 上 安装 Cassandra, 
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第 3 章 Cassandra 的 数据 模型 
这 里 ， 我 们 介绍 了 Cassandra 的 数据 模型 以 了 解 Cassandra 中 的 列 、 超 级 列 、 行 
都 是 什么 。 我 们 特别 介绍 了 Cassandra 和 传统 的 关系 型 数据 库 之 间 的 差别 。 


第 4 章 应 用 实例 
这 一 章 给 出 了 一 个 完整 可 用 的 例子 ， 将 一 个 大 家 熟悉 的 领域 中 的 应 用 实例 从 关系 
模型 迁移 到 了 Cassandra 的 数据 模型 之 上 。 


第 5 $t Cassandra 的 架构 

这 一 章 会 帮 你 理解 在 Cassandra 进行 读 写 操 作 时 ， 到 底 都 发 生 了 什么 ， 这 个 数据 库 
是 如 何 做 到 它 的 那些 特点 的 ， 比 如 持久 性 和 高 可 用 性 。 我 们 深入 到 底层 来 了 解 一 些 
更 复杂 的 内 部 工作 机 制 ， 比 如 gossip 协议 、 提 示 移 交 、 读 时 修复 、Merkle 树 等 。 


第 6 章 配 置 Cassandra 

这 一 章 介 绍 了 如 何 设置 分 区 器 、 副 本 放置 策略 和 snitch。 我 们 配置 了 一 个 集群 ， 
了 解 不 同 配置 选项 对 于 集群 的 影响 。 

第 7 章 读 写 数据 

这 是 我 们 一 直 期 待 的 时 刻 。 这 里 介绍 了 Cassandra 模型 在 查询 和 更 新 数据 时 与 传 
统 关系 型 数据 库 的 不 同 ， 然 后 还 使 用 API 进行 了 操作 。 





第 8 章 客户 端 

第 三 方 开发 者 为 Cassandra 开发 了 很 多 不 同 的 客户 端 ， 支 持 多 种 语言 ， 包 括 
Java、C#、Ruby、Python 等 ， 对 Cassandra 的 底层 API 进行 了 再 次 抽象 。 我 们 
会 帮 你 从 整体 上 了 解 这 些 客户 端 ， 这 样 你 就 可 以 选择 一 个 适合 自己 的 了 。 


第 9 章 监控 

一 旦 集群 已 经 配置 好 并 开始 运行 了 ， 就 需要 监控 它 的 利用 率 、 内 存 占用 和 线程 状 
况 ， 了 解 它 的 日 常 行为 。Cassandra 内 建 了 丰富 的 Java 管理 扩展 (JMX) 接口 ， 
我 们 可 以 监控 所 有 这 些 信 息 ， 甚 至 更 多 。 





第 10 章 维护 

通过 服务 器 自 带 的 一 些 工 具 ， 可 以 更 简单 地 进行 很 多 Cassandra 集群 的 日 常 维护 
工作 。 我 们 会 看 到 如 何 退 服 一 个 节点 ， 对 集群 进行 负载 均衡 ， 获 取 统 计 信息 以 及 
进行 其 他 日 常 维护 操作 任务 。 


第 11 章 性 能 调 优 

Cassandra 的 一 个 最 值得 一 提 的 特性 就 是 它 的 速度 一 一 非常 地 快 。 但 有 很 多 东西 ， 
包括 内 存 设 置 、 数 据 存 储 、 硬 件 选 择 、 缓 存 和 缓冲 区 大 小 等 ， 都 需要 进一步 调 
优 ， 从 中 获得 更 高 的 性 能 。 
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。 第 12 章 集成 Hadoop 
这 一 章 由 Jeremy Hanna 写作 。 在 这 一 章 我 们 会 把 Cassandra 放 到 一 个 更 大 的 背景 
中 ， 学 习 如 何 将 它 与 Hadoop 集成 在 一 起 ，Hadoop 是 Google 的 Map/Reduce 算 
法 目前 一 个 十 分 流行 的 实现 。 

。 附录 
很 多 新 的 数据 库 都 在 今日 海量 数据 的 需求 之 下 应 运 而 生 了 ， 有 的 从 “无 schema” 模 
型 中 获 益 ， 有 的 支持 更 新 的 一 些 趋势 ， 如 语义 网 络 。 这 里 我 们 把 Cassandra 放 到 各 
种 流行 的 非 关 系 型 数据 库 背 景 之 中 ， 分 别 了 解 面向 文档 的 数据 库 、 分 布 式 哈 希 表 、 
图 数据 库 等 ， 来 更 好 地 理解 Cassandra 所 提供 的 东西 。 

。 词汇 表 
理解 一 些 确实 很 新 的 东西 是 相当 困难 的 ，Cassandra 中 有 些 名 词 对 于 关系 型 应 用 
的 开发 者 和 DBA 来 说 可 能 非常 陌生 ， 我 编写 了 一 个 词汇 表 ， 来 方便 大 家 阅读 本 
书 。 如 果 某 个 概念 让 你 不 知 所 云 ， 可 以 翻 到 词汇 表 来 了 解 诸如 Merkle 树 、 向 量 
时 钟 、 提 示 移 交 、 读 时 修复 和 其 他 生僻 的 名 词 。 





























本 书 针对 Cassandra 0.6 和 0.7 写成 。 项 目 组 正在 努力 开发 Cassandra， 新 的 

心 小 版 本 和 修订 版 本 会 不 断 释 出 。 在 可 能 的 地 方 ， 我 会 尽量 解释 版 本 间 的 不 

U^ 同 ， 不 过 你 在 阅读 时 可 能 已 经 用 上 了 一 个 更 新 的 版 本 ， 有 些 实现 因此 会 有 
所 不 同 。 


更 多 信息 


如 果 你 需要 了 解 关 于 Cassandra 的 更 多 信息 ， 获 得 最 近 的 更 新 ， 可 以 访问 本 书 网 站 : 


http://www.cassandraguide.com, 

















在 Twitter 上 关注 我 (@ebenhewitt) 也 是 个 好 主意 。 


格式 约定 
本 书 使 用 了 如 下 排版 约定 。 
CHE 

用 于 标记 新 名 词 。 


。 等 宽 字体 
用 于 程序 代码 ， 在 段落 中 用 于 表示 程序 的 组 成 部 分 ， 如 变量 或 函数 名 、 数 据 库 、 
数据 类 型 、 环 境 变量 、 语 句 、 关 键 字 。 
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。 等 宽 粗 体 
命令 或 是 其 他 应 该 由 用 户 输入 的 内 容 。 


用 户 提供 的 或 由 上 下 文 确定 的 值 。 











这 个 图 标 表明 一 个 提示 、 建 议 或 一 般 注 记 。 














这 个 图 标 表示 一 个 警告 或 警示 。 




















使 用 示例 代码 


本 书 用 于 帮助 你 完成 工作 。 通 常 ， 你 可 以 在 程序 或 文档 中 使 用 本 书 提供 的 代码 。 除 
非 你 在 重新 发 布 我 们 的 大 量 代码 ， 否 则 不 需要 联系 我 们 来 获得 许可 。 比 如 ， 在 程序 
中 使 用 本 书 代码 的 一 些 片 段 是 无 需 我 们 许可 的 。 但 是 出 售 或 再 分 发 O Reilly 的 图 书 
示例 光盘 显然 是 需要 授权 的 。 引 用 本 书 或 引用 示例 代码 来 回答 问题 是 不 需要 授权 的 ， 
但 使 用 本 书 的 大 量 示例 代码 作为 你 的 产品 的 文档 是 需要 授权 的 。 


我 们 乐于 见 到 你 在 使 用 时 声明 引用 信息 ， 但 不 强制 要 求 。 引 用 信息 通常 包括 书 名 、 
作者 、 出 版 社 和 ISBN。 比 如 :“Cassandra: The Definitive Guide by Eben Hewitt. 
Copyright 2011 Eben Hewitt, 978-1-449-39041-9." 

















如 果 你 认为 对 示例 代码 的 使 用 需要 授权 ， 请 通过 这 个 邮箱 联系 我 们 permissions 


oreilly.com, 


Safari EERE 


。。》 Safari 在 线 图 书 是 应 需 而 变 的 数字 图 书馆 。 它 能 够 让 你 非常 
Safarl 经 松 地 搜索 7500 多 种 技术 性 和 创新 性 参考 书 以 及 视频 ， 以 
leone — 便 快速 地 找到 需要 的 答案 。 


订阅 后 就 可 以 访问 在 线 图 书馆 内 的 所 有 页 面 和 视频 。 可 以 在 手机 或 其 他 移动 设备 上 
阅读 。 还 能 在 新 书 上 市 之 前 抢先 阅读 ， 也 能 够 看 到 还 在 创作 中 的 书稿 并 向 作者 反馈 
意见 。 复 制 粘贴 代码 示例 、 放 入 收藏 严 、 下 载 部 分 章 诈 、 标 记 关 键 点 、 做 笔记 甚至 
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打印 页 面 等 有 用 的 功能 可 以 节省 大 量 时 间 。 


这 本 书 也 在 其 中 。 欲 访问 本 书 的 英文 版 电子 版 ， 或 者 由 O”Reilly 或 其 他 出 版 社 出 
版 的 相关 图 书 ， 请 到 http://my.safaribooksonline.com 免费 注册 。 


我 们 的 联系 方式 
请 把 对 本 书 的 评论 和 问题 发 给 出 版 社 。 
X : 
O'Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
奥 羔 利 技术 咨询 (北京) 有 限 公 司 
O'Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 关于 本 书 的 相关 信息 ， 包 括 
勘误 表 、 示 例 代码 以 及 其 他 的 信息 。 本 书 的 网 站 地 址 是 : 
http://www.oreilly.com/catalog/0636920010852/ 























中 文书 
http://www.oreilly.com.cn/index.php?func-book & isbn= 

对 于 本 书 的 评论 和 技术 性 的 问题 ， 请 发 送 电子 邮件 到 : 
bookquestions@oreilly.com 

关于 本 书 的 更 多 信息 、 会 议 、 资 源 中 心 和 网 络 ， 请 访问 以 下 网 站 : 


http://www.oreilly.com 


http://www.oreilly.com.cn 
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第 1 章 


Cassandra 概况 





如 果 一 个 概念 一 开始 不 是 荒诞 不 蚜 的 话 ， 那 它 也 没什么 前 途 。 
一 一 阿尔 伯 特 。 爱 因 斯 坦 


欢迎 阅读 《Cassandra 权威 指南 》。 本 书 的 目标 是 帮助 开发 者 和 数据 库 管 理 员 们 理解 
这 种 重要 的 新 型 数据 库 ， 探 索 它 与 传统 的 关系 型 数据 库 系 统 有 何 异 同 ， 并 帮助 你 在 
自己 的 系统 中 使 用 Cassandra, 


1.1 关系 型 数据 库 有 什么 问题 


如 果 当 初 我 问 人 们 到 底 想 要 什么 的 话 ， 他 们 会 说 想 要 快 些 的 马 。 














享 利 。 福 特 


请 你 考虑 一 种 数据 模型 ， 它 由 一 个 拥有 数 千 名 雇员 的 天 公司 里 的 一 个 小 团队 发 明 。 
这 个 模型 可 以 通过 TCP/IP 访问 ， 并 且 可 以 使 用 包括 Java 和 Web Service 在 内 的 多 
种 语言 访问 。 在 被 广泛 采纳 之 前 ， 这 个 模型 起 初 若非 最 顶尖 的 计算 机 科学 家 都 很 难 
理解 ， 最 终 因 为 用 的 人 越 来 越 多 ， 才 被 大 家 认识 。 要 使 用 这 种 模型 构建 出 数据 库 ， 
就 必须 学 习 许 多 新 术语 ， 换 一 种 方式 考虑 数据 存储 。 随 着 相关 的 产品 层出不穷 地 出 
现 ， 很 多 公司 和 政府 部 门 开 始 广泛 地 使 用 它 ， 因 为 它 非 常 快 一 一 可 以 在 一 秒 钟 内 执 
行 上 千 次 操作 。 这 种 模型 产生 了 让 人 难以 置信 的 收益 。 


然后 ， 又 一 种 新 的 模型 出 现 了 。 











这 个 新 模型 是 一 种 可 怕 的 异端 ， 主 要 有 两 点 原因 。 首 先 ， 它 最 受 非议 的 地 方 就 在 于 
新 模型 与 旧 模 型 完全 不 同 ， 它 们 简直 是 格格 不 人。 这 很 可 怕 ， 因 为 全 新 且 完 全 不 同 
的 东西 通常 难以 理解 。 随 之 而 来 的 争论 更 进一步 巩固 了 人 们 的 看 法 ， 而 这 些 看 法 主 
要 来 自信 们 已 有 的 工作 环境 和 习 得 的 技术 。 其 次 ， 或许 是 更 重要 的 原因 ， 新 模型 所 
面临 的 阻碍 更 多 来 自 商 业 考 虑 ， 它 威胁 到 了 在 旧 模 型 上 的 大 量 投资 ,这些 投资 正在 
带 来 大 量 收入 。 在 这 个 时 候 改 变 似乎 是 可 笑 的 ， 也 是 不 可 能 的 。 


当然 ， 我 说 的 是 1966 年 由 IBM 发 明 的 信息 管理 系统 (IMS) 分 层 数 据 库 。 


IMS 是 为 “土星 五 号 ” 登 月 火箭 而 设计 的 。 它 的 架构 师 是 Vern Watts， 他 的 整个 职 
业 生涯 都 和 IMS 联系 在 一 起 。 很 多 读者 都 知道 IBM 的 DB2 数据 库 。 而 IBM 广 为 人 
知 的 DB2 数据 库 的 名 字 就 沿袭 自 它 的 前 身 DB1，DB1 是 围绕 着 IMS 的 数据 模型 构 
建 的 。IMS 于 1968 年 发 布 ， 之 后 在 用 户 信息 控制 系统 (CICS) 和 其 他 应 用 中 取得 
成 功 。 至 今 IMS 仍 被 很 多 应 用 使 用 着 。 


但 是 ,在 IMS 发 明之 后 的 儿 年 里 就 出 现 了 一 个 娇 新 的 模型 ， 这 个 破坏 性 的 、 带 来 威 
胁 的 模型 就 是 关系 型 数据 库 。 


同样 来 自 IBM 的 Edgar F. Codd 博士 在 他 1970 年 发 表 的 论文 《一 种 用 于 大 规模 共享 
数据 存储 系统 的 关系 型 数据 模型 》 中 ， 益 述 了 他 在 IBM 圣何塞 实验 室 的 工作 中 提 
出 的 关系 数据 模型 理论 。 这 篇 目前 仍然 可 以 在 http://www.seas.upenn.edu/~zives/03f/ 
cis550/codd.pdf 访问 的 论文 ， 成 为 了 后 来 的 关系 型 数据 管理 系统 的 黄 基 性 作品 。 


Codd 的 工作 与 IMS 的 层次 化 结构 完全 对 立 。IMS 的 用 户 要 理解 并 使 用 关系 型 数据 
库 ， 就 需要 学 习 很 多 听 起 来 十 分 怪异 的 新 名 词 。 不 过 ， 关 系 型 模型 与 它 的 前 身 相 比 
更 具 优势 ， 部 分 因为 巨人 几乎 总 是 站 在 其 他 巨人 的 肩膀 上 。 


关系 型 数据 库 这 个 概念 和 它 的 应 用 已 经 演化 了 40 多 年 了 ， 毫 无 疑问 ， 它 是 软件 应 用 
历史 上 最 成 功 的 一 个 。 它 既 可 以 在 个 人 小 公司 里 通过 微软 Access 数据 库 来 使 用 ， 也 
可 以 在 大 型 跨国 公司 的 上 百 台 经 过 调 优 的 服务 器 上 使 用 ， 构 成 存储 数 TB 数据 的 数 
据 仓 库 。 关 系数 据 模型 存储 了 账单 、 用 户 记 录 、 产 品目 录 、 账 户 明 细 、 用 户 鉴 权 信 
息 等 ， 可 以 说 关系 型 数据 库 里 差不多 存储 了 整个 世界 。 毫 无 疑问 ， 无 论 以 现代 的 技 
术 还 是 商业 视角 看 ， 关 系 型 数据 库 都 扮演 着 关键 角色 ， 而 且 ， 多 年 后 它 也 会 以 各 种 
形式 一 直 伴 随 我 们 存在 ，IMS 也 是 同样 。 关 系 模型 虽然 是 IMS 的 一 种 替代 模型 ， 两 
者 都 各 得 其 所 。 


所 以 ， 要 问 关系 型 数据 库 有 什么 问题 ， 一 言 以 蔽 之 ， 就 是 “没有 问题 ”。 
答 


不 过 ， 实 际 上 我 还 想 请 你 考虑 一 个 长 一 点 的 答案 。 这 个 答案 需要 从 长 计 议 ， 每 个 偶 
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然 诞生 的 概念 都 在 点 滴 改 变 着 世界 ， 孕 育 着 某 种 革命 。 而 这 一 次 次 的 革命 不 过 是 历 
史 的 重演 罢了 。 从 IMS、RDBMS 到 NoSQL, 一 如 从 马 到 汽车 再 到 飞机 ， 每 一 个 都 
建立 在 前 一 个 的 基础 之 上 ， 解 决 前 一 个 存在 的 某 些 问题 ， 每 个 都 有 所 长 ， 亦 有 所 短 。 
他 们 彼此 共存 ， 直 到 如 今 。 


那么 就 来 看 看 为 什么 现在 我 们 要 考虑 关系 型 数据 库 的 奉 代 产品 ， 正 如 四 十 年 前 Codd 
自己 面 对 信 息 管理 系统 MS) 的 思考 一 样 一 一 或 许 IMS 不 是 唯一 适合 用 于 组 织 信 
息 、 处 理 数 据 的 方法 ， 可 能 正 是 因为 某 些 问题 使 得 他 必须 要 考虑 一 种 IMS 的 赫 代 品 。 


当 基 于 关系 型 数据 库 的 应 用 取得 成 功 ， 访 问 量 大 幅 增加 的 时 候 ， 我 们 就 会 遇 到 可 扩 
展 性 问题 。 所 有 具有 最 基本 功能 的 关系 型 数据 库 都 会 支持 join 操作 ， 不 过 join 可 能 
会 很 慢 。 由 于 数据 库 通常 依靠 事务 来 保证 一 致 性 ， 而 事务 需要 锁 住 数 据 库 的 一 部 分 ， 
使 之 不 能 被 其 他 用 户 访问 。 因 为 锁 本 身 意味 着 竞争 同一 数据 的 用 户 会 被 放 入 队列 ， 
等 待 获得 读 写 权限 ， 这 在 高 负载 的 情况 下 可 能 会 成 为 系统 的 死 穴 。 


通常 ， 我 们 会 用 下 面 的 一 条 或 几 条 方法 来 解决 这 些 问 题 ， 很 多 时 候 是 下 面 这 个 顺序 。 


。 提升 硬件 能 力 来 解决 问题 ， 如 增加 内 存 、 用 更 快 的 处 理 器 以 及 升级 硬盘 。 这 种 方法 
称 为 王 直 扩展 ， 可 以 解 一 时 之 忧 。 


。 当 问 题 再 度 出 现时 ， 解 决 方法 很 类 似 : 既然 一 台 机 器 已 经 不 堪 重 负 了 ， 我 们 就 增加 
新 的 计算 机 ， 构 成 数据 库 集 群 。 不 过 ， 这 样 你 就 会 在 正常 使 用 及 出 故障 时 遇 到 数据 
复制 与 一 致 性 问题 了 。 这 些 问 题 之 前 从 未 出 现 过 。 


。 现在 我 们 需要 更 新 数据 库 管 理 系统 的 配置 。 可 能 是 要 优化 数据 库 用 来 写 底层 文件 系 
统 的 通道 。 我 们 关 掉 了 文件 系统 的 日 志 ， 当 然 ， 这 通常 是 不 推荐 的 〈 或 者 说 要 具体 
情况 具体 分 析 ) 。 


。 在 数据 库 系 统 上 投入 了 足够 多 的 精力 之 后 ， 我 们 转 过 来 审视 自己 的 应 用 。 我 们 开始 
优化 索引 、 优 化 查询 。 不 过 ， 当 我 们 的 应 用 达到 这 个 规模 的 时 候 ， 臣 怕 不 大 会 完全 
没 做 过 索引 和 查询 优化 ， 可 能 已 经 优化 过 不 少 了 。 那 么 ， 只 好 重新 审视 所 有 数据 库 
访问 代码 ， 想 发 现 零星 的 可 以 调 优 的 机 会 ， 这 是 一 件 相 当头 疼 的 事 。 优 化 内 容 可 能 
包括 减少 或 改写 join 操作 ， 除 去 比较 消耗 资源 的 特征 (如 在 存储 过 程 中 的 XML 处 
理 ) 等 。 当 然 , 我 们 做 那些 XML 处 理 本 身 肯 定 是 有 原因 的 ,如 果 我 们 不 得 不 做 的 话 ， 
那 就 得 把 它 挪 到 应 用 层 去 ， 希 望 那 里 能 解决 问题 ， 并 祈祷 我 们 这 么 干 不 会 同时 把 什 
么 其 他 东西 弄 坏 。 

。 我 们 增加 了 一 个 缓存 层 。 对 于 大 系统 可 能 会 3 引入 分 布 式 缓存 ， 如 memcached, 


EHCache, Oracle Coherence 或 其 他 类 似 产 品 。 现 在 ， 我 们 又 需要 面临 更 新 缓存 和 
更 新 数据 库 的 一 致 性 问题 了 ， 对 于 集群 来 说 ， 问 题 更 加 严重 。 
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现在 我 们 把 注意 力 重新 转向 数据 库 ， 由 于 应 用 已 经 在 那里 了 ， 并 且 我 们 很 了 解 主要 
的 查询 路 径 ， 现 在 我 们 复制 那些 访问 频率 较 高 的 数据 ， 让 它们 更 接近 于 查询 想 要 得 
到 的 形式 。 这 个 过 程 称 为 反 范 式 化 〈denormalization) ， 它 与 关系 模型 的 关键 特征 里 
的 五 种 形式 是 对 立 的 ， 也 违反 了 Codd 对 关系 型 数据 模型 的 12 条 建议 。 我 们 只 能 
安奈 自己 说 我 们 是 生活 在 现实 世界 之 中 ， 而 非 理 论 世 界 中 ， 并 保证 我 们 所 做 的 都 是 
为 了 让 应 用 能 够 在 可 接受 的 响应 时 间 下 完成 工作 ， 即 使 这 已 经 不 是 “纯粹 ”的 关系 
模型 了 。 


我 相信 这 一 幕 对 你 肯定 非常 熟悉 。 在 互联 网 的 规模 下 ， 工 程 师 们 已 经 开始 芳 虑 这 个 
情况 是 不 是 和 当年 亨利， 福特 的 境遇 有 些 相 似 ， 你 真正 需要 的 已 不 仅仅 是 你 本 来 想 
的 一 匹 快 马 了 。 他 们 已 经 做 了 一 些 令 人 称道 而 有 趣 的 工作 。 


首先 我 们 必须 认识 到 ， 关 系 模型 只 是 一 种 数据 模型 而 已 。 它 是 一 种 看 待 世界 的 有 效 
的 方法 ， 对 茶 些 问题 非常 有 效 。 但 它 并 没 打算 也 没 被 证 明 可 以 一 统 天 下 ， 不 留任 何 
余地 终结 所 有 其 他 表示 数据 的 方法 。 如 果 我 们 回顾 一 下 历史 就 会 发 现 ，Codd 博士 的 
模型 也 曾 是 个 破坏 性 的 发 明 。 它 是 全 新 的 ， 带 来 了 很 多 新 词汇 和 像 “ 元 组 ”这 样 的 
术语 一 一 老 词汇 但 有 新 意义 。 关 系 模型 在 当时 引发 了 质疑 ， 甚 至 受到 了 强烈 的 批评 。 
即使 是 Codd 博士 工作 的 IBM 公司 也 是 反对 者 之 一 ， 因 为 他 们 拥有 一 系列 围绕 IMS 
的 富有 一 利 能 力 的 产品 ， 不 需要 一 个 问 入 者 来 分 蛋糕 。 


不 过 如 今 ， 关 系 模型 已 经 无 可 辩驳 地 坐 上 了 数据 世界 中 的 头 把 交椅 。SQL 获得 了 广 
泛 的 支持 和 很 好 的 理解 ， 大 学 的 入 门 课 程 就 会 讲授 SQL 与 关系 数据 库 。 甚 至 4.95 
美元 1 月 就 可 以 租 到 有 免费 数据 库 的 互联 网 主机 。 我 们 最 终 使 用 什么 数据 库 通 常 由 
组 织 的 架构 标准 而 定 。 即 使 没有 这 样 的 标准 ， 学 习 一 下 组 织 结 构 已 经 有 了 什么 数据 
库 平台 仍 是 明智 的 。 我 们 的 开发 和 架构 方面 的 同事 都 有 相当 难得 的 知识 积累 。 


仅仅 是 出 于 渗透 或 是 惯性 ， 我 们 多 年 来 都 已 经 习惯 了 关系 型 数据 库 是 一 个 四 诲 一 家 
的 解决 之 道 。 

因此 ， 也 许 真 正 的 问题 不 是 “关系 数据 库 有 什么 问题 ”， 而 是 “你 有 什么 问题 要 解 
UC. 

也 就 是 说 ， 要 确保 你 的 解决 方案 和 你 的 问题 相 匹配 。 关 系 型 数据 库 确实 在 解决 很 多 
问题 时 非常 有 效 。 


如 果 你 并 未 面 对 大 规模 、 弹 性 扩展 的 问题 ， 那 么 对 于 Cassandra 之 类 的 复杂 系统 的 
取舍 完全 没有 考虑 的 必要 。 据 我 所 知 ， 没 有 任何 一 位 Cassandra 的 支持 者 会 要 求 别 
人 丢掉 他 们 的 所 有 关系 型 数据 库 的 知识 、 放 弃 他 们 多 年 来 对 于 这 类 系统 的 难得 的 经 
Jm, 或 是 破坏 他 们 的 员工 花费 数 月 时 间 精 心 构建 起 来 的 系统 。 
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关系 型 数据 库 长 期 以 来 很 好 地 服务 于 我 们 这 些 开 发 者 和 DBA。 但 是 由 于 互联 网 ， 
特别 是 社会 化 网 络 的 爆炸 性 发 展 ， 相 应 的 必须 要 处 理 的 数据 量 也 在 增长 。 当 Tim 
Berner-Lee 在 20 世纪 90 年 代 初 构建 Web 的 时 候 ， 只 是 为 了 物理 实验 室 里 的 博士 
们 交流 科学 文档 而 已 。 如 今 ， 互 联网 已 经 无 处 不 在 了 ， 从 最 初 的 那些 科学 家 到 在 
网 上 交流 小 猫 图 片 与 表情 符号 的 $ 岁 小 孩 ， 每 个 人 都 在 使 用 互联 网 。 这 意味 着 互 
联网 业 必 然 要 支持 海量 的 数据 ， 事 实 上 ， 这 也 成 为 了 Web 巧夺天工 的 架构 的 不 朽 
丰碑 。 


不 过 ， 有 些 基 础 设施 已 经 开始 力不从心 了 。 


在 1966 年 ， 像 IJBM 这 样 的 公司 可 以 向 世界 传播 他 们 的 创新 。 他 们 自己 有 问题 ， 也 
拥有 解决 问题 的 能 力 。 但 当 我 们 进入 21 世纪 第 二 个 十 年 的 时 候 ， 我 们 也 开始 看 到 类 
似 的 创新 了 ， 不 过 这 些 创 新 来 自 于 像 Facebook 和 Twitter 这 样 的 年 轻 公 司 。 


所 以 ， 真 正 的 问题 可 能 也 不 是 “我 有 什么 需要 解决 的 问题 ”， 而 是 “如 果 数 据 不 是 问 
题 ， 那 么 应 该 怎么 来 处 理 这 些 数 据 "。 如 果 能 够 轻易 做 到 容错 、 跨 数据 中 心 可 用 人 性、 
可 调整 的 一 致 性 ， 以 及 高 达 上 百 TB 的 超大 规模 、 多 种 可 选择 的 客户 端 语言 ， 又 会 
怎样 ?你 可 能 会 说 ， 你 不 需要 那 种 可 用 性 或 是 那个 水 平 的 可 扩展 性 ， 而 且 你 最 清楚 
你 的 系统 需求 。 你 当然 是 对 的 ， 因 为 事实 上 ， 如 果 你 的 数据 库 不 能 满足 当前 对 数据 
库 的 需求 ， 那 么 你 的 系统 是 根本 无 法 工作 的 。 


我 无 意 通 过 诡辩 来 说 服 你 采用 一 个 像 Apache Cassandra 这 样 的 非 关 系 型 数据 库 。 我 只 
是 想 介绍 Cassandra 能 做 什么 、 如 何 做 到 ， 这 样 你 就 可 以 依 此 来 决策 ， 并 且 如 果 你 发 
现 它 可 用 ， 就 可 以 开始 使 用 它 开展 实际 工作 了 。 只 有 你 自己 知道 你 的 数据 需求 是 什 
么 。 我 不 需要 你 重新 考虑 自己 的 数据 库 ， 除 非 你 已 经 被 数据 库 问 题 折腾 得 兰 不 堪 言 
了 ， 或 是 你 需要 扩展 数据 库 却 无 能 为 力 ， 或 是 你 的 数据 模型 无 法 足够 灵活 地 匹配 你 的 
应 用 需求 。 我 并 不 要 求 你 考虑 你 的 数据 库 ， 但 请 考虑 你 的 组 织 结 构 ， 它 未 来 的 目标 和 
它 将 要 面临 的 问题 。 如 果 你 能 收集 到 有 关 商 业 目 标的 更 多 数据 的 话 ， 你 会 收集 么 ? 


不 要 问 如 何 让 Cassandra 融入 你 的 现 有 环境 ， 要 问 你 希望 解决 什么 数据 问题 而 不 是 
只 关注 现在 数据 存在 的 问题 。 要 问 你 希望 的 新 型 数据 是 什么 样 的 。 如 果 可 能 的 话 ， 
你 想 要 如 何 去 深 入 理解 你 的 组 织 ? 


1.2 关系 型 数据 库 简单 回顾 


虽然 你 可 能 已 经 很 熟悉 关系 型 数据 库 管 理 系 统 (RDBMS) 了 ， 我 们 还 是 要 来 关注 一 
下 关系 型 数据 库 的 一 些 基 本 概念 。 这 会 让 我 们 了 解 在 分 布 式 系统 ， 尤 其 是 那些 互联 
网 规模 的 超大 数据 系统 中 有 关 技 术 折 中 考虑 的 最 新 理念 。 
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1.2.1 RDBMS: H3HEAX ENDE 

关系 型 数据 库 在 过 去 的 四 十 年 间 一 统 天 下 的 原因 有 很 多 ， 而 其 中 的 一 个 重要 原因 
便 是 它 有 功能 丰富 、 语 法 简明 的 结构 化 查询 语言 (SQL). SQL 在 1986 年 被 接 
纳 为 ANSI 标准 ， 之 后 有 过 多 个 修订 版 ， 而 且 有 各 个 厂商 带 来 的 专 有 扩展 语法 格 
式 ， 比 如 微软 的 T-SQL 和 Oracle 的 PL/SQL， 都 提供 了 各 自 附 加 的 针对 其 实现 
的 特性 。 


SQL 之 所 以 强大 的 原因 有 很 多 。 它 允许 用 户 使 用 语句 来 表述 复杂 的 数据 关系 ， 构 成 
数据 处 理 语 言 (DML) 来 插 和 入、 选择、 更新、 删除 、 截 断 和 合并 数据 。 你 可 以 使 用 
基于 关系 代数 的 函数 进行 丰富 的 操作 ， 比 如 查找 集合 中 的 最 大 或 最 小 值 ， 或 对 结果 
进行 过 滤 与 排序 。SQL 语句 支持 对 值 进行 分 组 汇聚 并 执行 汇总 函数 。SQL 也 提供 了 
数据 定义 语言 (DDL)， 可 以 在 运行 时 直接 创建 、 修 改 或 删除 schema 结构 。SQL 还 
允许 你 使 用 同样 的 语法 格式 对 用 户 进行 授权 或 取消 授权 。 


另 一 方面 ，SQL 非常 易于 使 用 。SQL 的 基本 语法 很 容易 学 习 ， 这 样 就 为 SQL 和 
RDBMS 降低 了 门槛 。 初 级 SQL 开发 者 可 以 平稳 进 阶 ， 在 软件 行业 ， 人 们 通常 面临 
着 快速 的 变化 、 紧 迫 的 交付 时 间 和 膨胀 的 预算 ， 在 这 种 压力 下 ， 易 学 易 用 无 疑 是 非 
常 重要 的 。SQL 不 仅 语法 很 简单 ， 而 且 还 有 包括 直观 的 图 形 界面 在 内 的 很 多 强大 的 
工具 可 以 配合 数据 库 的 使 用 。 


部 分 源 于 SQL 是 一 项 ANSI 标准， 所 以 RDBMS 可 以 很 方便 地 和 各 种 系统 相 集 成 。 
所 有 需要 做 的 工作 就 是 为 你 的 语言 编写 一 个 驱动 , 这 样 就 可 以 以 一 种 可 移植 的 方式 
进行 对 接 了 。 如 果 你 要 改变 你 的 应 用 实现 语言 (或 是 换 家 RDBMS 厂商 )， 只 要 你 不 
是 太 过 于 依赖 数据 库 厂 商 的 专 有 扩展 ， 通 常 都 不 会 太 困 难 。 











1. 事务 .ACID 和 两 阶段 提交 

除了 上 面 已 经 提 到 的 特性 ，RDBMS 和 SQL 还 支持 事务 。 根 据 Jim Gray 的 定义 ， 数 
据 库 事务 是 一 种 具有 ACID 特征 的 “状态 转移 过 程 ”( 参 考 http://research.microsoft. 
comy/en-us/um/people/gray/papers/theTransactionConcept.pdf) 。 事 务 的 关键 特性 
是 它们 会 首先 虚拟 地 执行 ， 并 允许 程序 员 在 任务 的 执行 阶段 (EH ROLLBACK) 
来 撤销 所 有 改动 。 如 果 一 切 运行 正常 ， 事 务 就 可 以 可 靠 提 交 。 对 于 事务 的 支持 很 
快 就 成 为 了 非 关 系 型 数据 库 的 讨论 中 的 痛处 ， 所 以 我 们 先 来 看 看 事务 到 底 意味 着 
什么 。 


ACID 是 原子 性 (Atomic), — £t E. (Consistent)、 隔 离 性 (Isolated) 和 持久 性 
(Durable) 的 缩写 ， 是 验证 事务 是 否 正确 、 是 否 成 功 执 行 的 标尺 和 准绳 。 






































。 原子 性 
原子 性 的 含义 是 “要 么 全 有 ， 要 么 全 无 "， 也 就 是 说 ， 执 行 一 个 语句 时 ， 事 务 中 
的 每 个 更 新 都 必须 成 功 才能 称 为 成 功 。 不 存在 有 的 更 新 成 功 ， 有 的 更 新 不 成 功 的 
部 分 失败 状态 。 一 个 最 典型 的 例子 就 是 在 ATM 机 上 进行 汇款 服务 : 汇款 需要 从 
一 个 账号 上 取 钱 ， 再 添加 到 另 一 个 账号 里 。 这 个 操作 是 不 可 分 的 ， 两 个 动作 必须 
全 部 成 功 。 


。 一 致 性 
一 致 性 意味 着 数据 必须 从 一 个 正确 的 状态 转移 到 另 一 个 正确 的 状态 ， 不 允许 别人 
看 到 没有 意义 的 不 同 的 值 。 比 如 ， 如 果 一 个 事务 试图 删除 一 个 客户 和 她 的 订单 历 
史 ， 就 不 应 该 留 下 一 个 订单 列 指向 已 经 删除 的 客户 的 主键 ， 否 则 ， 不 一 致 的 状态 
可 能 会 让 某 些 试图 读 订 单 记录 的 操作 出 错 。 


。 隔离 性 
隔离 性 是 指 并 发 执行 的 事务 不 应 该 彼此 依赖 ， 它 们 运行 在 各 自 的 空间 之 中 。 也 就 
是 说 ， 如 果 有 两 个 事务 同时 需要 修改 同一 份 数据 ， 那 么 其 中 之 一 就 必须 等 待 另 一 
个 完成 之 后 再 操作 。 


。 持久 性 
旦 一 个 事务 成 功 完成 ， 变 更 就 不 再 丢失 。 这 并 不 意味 着 其 他 事务 稍 后 不 可 以 修 
改 同一 数据 ， 而 是 说 写 数据 的 程序 可 以 确信 变更 在 下 一 个 事务 运行 前 已 经 就 绪 。 


表面 上 看 ， 这 些 属性 似乎 是 显而易见 的 ， 其 至 不 值得 讨论 。 估 计 所 有 运行 数据 库 的 
人 都 相信 ， 更 新 数据 必须 要 花费 一 定时 间 ， 因 为 执行 更 新 的 关键 点 就 在 于 ， 这 些 数 
据 也 是 要 被 其 他 人 读 取 的 。 然 而 ， 进 一 步 的 思考 可 能 让 我 们 希望 找 个 方法 来 调整 一 
点 这 些 属 性 ， 略 微 控制 它们 一 下 。 所 谓 “ 互 联网 上 没有 免费 的 午餐 ， 一 旦 发 现 究竟 
要 为 事务 付出 多 少 代 价 ， 我 们 可 能 就 会 开始 考虑 ， 是 否 需 要 个 禁 代 方案 了 。 


事务 在 高 负载 下 变 得 非常 困难 。 当 你 开始 尝试 水 平 扩展 一 个 关系 型 数据 库 、 让 它 分 
布 化 的 时 候 ， 就 必须 要 考虑 分 布 式 事务 的 问题 了 。 这 里 ， 事 务 不 再 是 一 张 表 或 一 个 
库 里 的 简单 操作 了 ， 而 是 一 个 跨越 多 个 系统 的 操作 。 为 了 继续 保持 事务 ACID 属性 
的 “荣誉 ”， 你 需要 一 个 精巧 设计 的 跨 节 点 的 事务 管理 器 。 


为 了 保证 事务 跨越 多 主机 成 功 执行 ， 人 们 提出 了 两 阶段 提交 (有 了 时 被 称 为 2PC， 即 
two-phase commit)。 但 是 因为 两 阶段 提交 锁 住 了 所 有 的 相关 资源 ， 这 种 方法 只 对 可 
以 很 快 完成 的 操作 可 用 。 虽 然 很 多 时 候 分 布 式 操作 都 可 以 在 不 足 一 秒 的 时 间 内 完成 ， 
但 情况 并 非 总 是 如 此 。 在 有 些 需 要 跨越 多 台 主 机 的 情况 下 ， 你 无 法 准确 控制 自己 的 
用 时 ， 有 些 需要 协调 多 个 相关 动作 的 操作 甚至 可 能 会 耗 时 数 小 时 。 
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两 阶段 提交 是 阻塞 式 的 ， 也 就 是 说 客户 端 (竞争 消费 者 ) 必须 等 待 前 一 个 事务 完成 ， 
否则 就 无 法 访问 阻塞 了 的 资产。 两 阶段 提交 需要 等 待 一 个 节点 的 响应 ， 但 或 许 这 个 
节点 已 经 死 了 。 当 然 ， 可 以 设置 超时 来 允许 事务 协调 节点 发 现 某 个 节点 已 经 没有 响 
应 了 ， 我 们 可 以 避免 一 直 等 下 去 。 但 是 ， 两 阶段 提交 仍然 可 能 会 导致 死 循环 ， 因 为 
一 个 节点 可 以 发 送 一 个 消息 给 事务 协调 节点 ， 声 明 自 己 已 经 完成 任务 ， 可 以 提交 了 ， 
然后 它 就 会 等 待 协调 节点 发 回 提交 响应 (或 者 如 果 节 点 不 能 提交 ， 就 等 待 回 退 响 
应 ) ， 但 如 果 这 时 协调 节点 宕 机 了 ， 那 么 这 个 不 幸 的 节点 就 得 永远 等 下 去 了 。 


为 了 解决 两 阶段 提交 的 分 布 式 事务 的 问题 ， 数 据 库 领域 中 有 人 提出 了 补偿 的 概念 。 
补偿 在 Web 服务 中 非常 常用 ， 简 单 地 说 就 是 把 操作 立刻 提交 ， 如 果 发 现 了 什么 错误 
的 话 ， 就 调用 一 个 新 的 操作 来 恢复 开始 的 状态 。 


架构 师 们 经 常 要 用 一 些 基 本 的 、 众 所 周知 的 补偿 模式 作为 两 阶段 提交 的 替代 方案 ， 
包括 失败 后 核 销 事务 、 放 弃 出 错 事务 以 及 事后 核对 等 。 另 一 个 替代 两 阶段 提交 的 方 
法 是 得 到 通知 时 重 试 出 错 操作 。 对 于 预定 系统 或 是 股票 销售 记录 系统 ， 这 些 方法 可 
能 无 法 满足 需求 。 但 对 于 其 他 应 用 ， 比 如 计 费 或 是 售票 应 用 ， 这 是 可 以 接受 的 。 









































Google 的 架构 师 Gregor Hohpe 曾经 写 过 一 篇 题 为 “星巴克 不 使 用 两 阶 
uva. 段 提 交 ” 的 非常 精彩 、 被 广泛 引用 的 博客 。 文 中 介绍 了 现实 世界 中 的 两 
阶段 提交 是 多 么 难以 扩展 ， 并 特别 介绍 了 一 些 替代 方法 。 这 篇 文章 浅显 、 
有 趣 而 富有 启示 ， 值 得 一 读 。 链 接地 址 是 : http://www.eaipatterns.com/ 
ramblings/18_starbucks.html。 








2PC 给 应 用 开发 者 引入 的 问题 包括 可 用 性 的 损失 和 部 分 出 错时 导致 的 高 时 延 ， 两 者 
都 是 难以 接受 的 。 所 以 一 旦 你 的 事业 发 展 顺利 ， 需 要 扩展 过 去 的 单机 数据 库 的 时 候 ， 
你 必须 要 和 弄 明 白 如 何在 保持 ACID 属性 的 同时 处 理 好 跨越 多 台 机 器 的 事务 问题 。 不 
论 你 是 有 10 台 、100 台 还 是 1000 台数 据 库 服 务 器 ， 事 务 都 和 运行 在 一 个 节点 上 一 
样 需要 具备 原子 性 。 只 是 这 下 子 任务 要 艰巨 得 多 了 。 











2. Schema 

关系 型 数据 库 的 一 个 经 常 被 称赞 的 特性 就 是 它们 提供 了 丰富 的 schema。 通 过 
schema， 你 可 以 使 用 关系 模型 表述 各 种 应 用 领域 中 的 对 象 。 在 业界 有 很 多 高 级 〈 又 
昂贵 ) 的 工具 ， 如 CA 的 ERWin Data Modeler 可 以 帮 你 做 到 这 点 。 但 是 ， 为 了 创建 
正确 、 规 范 的 schema， 你 不 得 不 创建 某 些 表 ， 来 容纳 一 些 在 应 用 领域 的 业务 中 并 不 
存在 的 对 象 。 比 如 ， 一 个 大 学 的 数据 库 里 可 能 包含 了 学 生 表 和 课程 表 。 但 因为 这 是 
一 个 多 对 多 的 关系 (一 个 学 生 可 以 同时 修 多 门 课程 ， 而 一 个 课程 同时 会 有 多 名 学 生 
上 ) ， 你 不 得 不 创建 一 个 联合 表 。 这 污染 了 一 个 朴素 的 数据 模型 一 一 我 们 所 需要 的 其 











1 章 


Co 
# 


实 只 是 学 生 和 课程 。 这 也 强迫 我 们 不 得 不 写 更 复杂 的 SQL 语句 来 将 这 些 表 联 合 到 一 
起 使 用 。 而 且 join 语句 可 能 会 很 慢 。 


对 于 不 算 大 的 系统 ， 这 根本 不 是 问题 。 但 是 当 你 需要 在 多 张 表 里 同 时 处 理 很 多 行 的 
时 候 ， 复 杂 的 查询 和 join 操作 可 能 会 慢 得 难以 承受 。 


最 后 ， 并 不 是 所 有 的 schema 都 很 好 地 符合 关系 模型 。 在 过 去 10 年 中 ， 复 杂事 件 处 理 
系统 的 应 用 非常 广泛 ， 它 使 用 一 个 非常 快速 的 流 来 表示 状态 变化 。 这 种 系统 常常 用 于 
将 运行 时 的 相关 事件 与 其 他 可 能 相关 的 事件 进行 对 比 ， 来 分 析 得 到 结论 以 支持 商业 决 
策 。 虽 然 事 件 流 可 以 在 关系 型 数据 库 中 描述 ， 但 这 种 表达 方式 的 扩展 却 十 分 别扭 。 


如 果 你 是 一 个 应 用 开发 者 ， 应 该 对 很 多 对 象 关 系 映 射 (ORM) 框架 非常 熟悉 ， 近 
年 来 很 多 此 类 框架 可 以 简化 应 用 对 象 到 关系 模型 的 映射 难度 。 同 样 ， 对 于 小 系统 ， 
ORM 非常 简单 。 但 ORM 同样 引入 了 新 的 问题 ， 比 如 内 存 需 求 大 ， mH, ORM 
框架 引入 的 大 量 笨拙 的 映射 代码 也 污染 了 应 用 的 代码 。 下 面 是 一 个 在 Java 中 使 用 
Hibernate 来 “减轻 ”编写 SQL 代码 的 负担 的 例子 : 


GCollectionOfElements 
GJoinTable (name-"store description", 














joinColumns = GJoinColumn(name-"store code")) 
@MapKey (columns-[GColumn (name-"for store",length-3)]) 
GColumn (name-"description") 
private Map«String, String» getMap() ( 

return this.map; 
j 
JL s 


是 不 是 我 们 根本 没有 解决 这 里 的 问题 ?当然 ， 尤 其 对 于 那些 与 服务 和 基于 XML 的 应 用 
有 大 量 文档 交换 的 系统 ， 并 不 总 能 简洁 地 映射 关系 型 数据 库 。 这 更 会 加 剧 这 个 问题 。 





3. 分 片 与 shared-nothing 架 构 
如 果 你 无 法 拆 分 系统 ， 就 无 法 扩展 它 。 





Randy Shoup, eBay 杰出 架构 师 


另 一 种 用 于 扩展 关系 型 数据 库 的 方法 是 在 系统 架构 中 引入 分 片 (sharding)。 这 种 方 
法 已 经 在 很 多 大 型 网 站 和 Web2.0 应 用 中 取得 了 成 功 ， 比 如 eBay， 分 片 架构 可 以 支 
持 每 天 数 十 亿 次 的 SQL 查询 。 分 片 的 思路 就 是 将 数据 拆 分 ， 不 把 所 有 数据 放 到 一 个 
单独 的 服务 器 上 ， 也 不 把 数据 复制 到 集群 中 的 所 有 服务 器 上 ， 而 是 把 数据 水 平地 进 
行 分 割 ， 并 分 别 存放 。 


例如 ， 一 个 关系 型 数据 库 里 有 一 个 很 大 的 顾客 表 。( 从 程序 的 角度 看 ) 最 省 事 的 扩容 
方法 就 是 通过 增加 CPU、 内存 ， 更 换 更 好 的 硬盘 来 进行 垂直 扩展 了 ， 可 是 一 旦 你 的 
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事业 继续 成 功 ， 歼 得 了 更 多 的 用 户 ， 在 某 一 时 刻 〈 可 能 是 达到 上 千 万 行 的 时 候 )， 你 
可 能 不 得 不 开始 考虑 无 法 增加 更 多 机 器 的 问题 了 。 再 加 机 器 的 话 ， 是 否 要 向 所 有 机 
器 复制 所 有 数据 ? 或 者 是 否 把 单 张 顾客 表 拆 开 ， 每 个 数据 库 只 有 一 部 分 记录 和 相关 
的 订单 信息 ?这 样 ， 当 客户 进行 查询 的 时 候 ， 人 负载 将 只 压 在 拥有 相关 记录 的 机 器 上 ， 
而 对 其 他 机 器 不 产生 影响 。 





显然 ， 要 进行 分 片 ， 你 必须 找到 一 个 合理 的 键 值 来 对 记录 进行 划分 。 比 如 ， 你 可 以 
按照 首 字母 来 进行 划分 ， 把 顾客 记录 分 布 到 26 台 机 器 上 ， 每 台 机 器 仅 存 储 姓氏 以 一 
个 字母 开头 的 顾客 的 记录 。 不 过 这 似乎 不 是 一 个 好 的 策略 ， 很 少 有 人 的 姓氏 以 字母 
Q 或 Z 开头 ,这 两 台 机 器 会 一 直 很 用， 而 存放 J、M 和 S 开头 姓氏 的 顾客 的 机 器 会 
一 直 很 忙 。 你 还 可 以 以 某 些 数 字 来 进行 分 片 ， 比 如 电话 号 码 、 成 为 会 员 的 日 期 ， 或 
是 顾客 所 在 州 的 名 字 。 如 何 分 片 完 全 取决 于 你 希望 数据 如 何 分 布 。 


这 里 有 三 种 基本 的 确定 分 片 结构 的 策略 。 


。 按照 特性 或 功能 来 分 片 
这 是 eBay 的 杰出 架构 师 Randy Shoup 采用 的 方法 ， 他 曾 在 2006 年 帮助 eBay 建 
立 了 成 熟 的 架构 ， 可 以 支持 每 天 数 十 亿 次 查询 。 使 用 这 个 策略 ， 并 不 是 将 一 个 表 
中 的 记录 进行 拆 分 (比如 之 前 提 到 的 顾客 表 )， 而 是 分 成 多 个 功能 上 互相 不 怎么 
重 且 的 数据 库 。 比 如 ， 在 eBay， 用 户 分 到 一 个 分 片 中 ， 而 出 售 的 产品 则 放 到 另 
一 个 分 片 中 。 在 Flixster， 电 影评 分 放 到 一 个 分 片 中 ， 而 评论 则 放 到 另 一 个 分 片 
里 。 这 个 方法 需要 深 入 理解 应 用 领域 ,才能 更 好 地 分 片 。 


基于 键 值 的 分 片 

这 种 方法 需要 在 你 的 数据 中 找到 一 个 可 以 均匀 分 布 到 各 个 分 片 中 的 键 值 。 不 像 在 
刚才 的 例子 中 那样 ， 非 常 幼稚 地 通过 字母 表 的 方式 简单 进行 分 布 ， 而 应 当 对 一 个 
关键 数据 元 素 进行 一 次 单 向 哈 希 ， 根 据 哈 希 值 将 数据 分 布 到 多 人 台 机 器 上 。 这 种 策 
略 经 常会 使 用 一 个 时 间或 是 数值 键 进行 哈 希 。 


。 ERK 
在 这 种 方法 里 ， 集 群 中 的 一 个 节点 会 充当 黄页 目录 的 角色 ， 用 于 查询 哪个 节点 拥 
有 用 户 要 访问 的 数据 。 这 种 方法 有 两 个 显而易见 的 问题 : 首先 ， 由 于 每 次 查询 都 
需要 进行 查 表 操作 ， 这 会 影响 到 查询 的 性 能 ， 甚 次， 这 个 表 不 仅 会 成 为 一 个 瓶 
颈 ， 还 可 能 是 系统 中 的 一 个 单 点 失效 点 。 














Ha 





x http://Isvp.wordpress.com/2008/06/20 介绍 了 Flixster 是 如 何 使 用 分 片 策略 
Tad. 来 改进 网 站 性 能 康 








依据 不 同 的 分 片 策 略 ， 可 以 减 小 资源 竞争 ， 不 仅 允 许 你 水 平 扩 展 系统 ， 而 且 可 以 更 
精确 地 扩展 ， 因 为 你 可 以 精确 地 提升 特定 分 片 的 性 能 。 


分 片 可 以 看 做 是 一 种 shared-nothing 的 数据 库 架 构 。 所 谓 shared-nothing 架构 是 指 分 
布 式 系统 中 ， 不 存在 集中 存储 的 (共享 ) 状态 ， 也 就 无 需 竞 争 共享 资源 了 。 这 一 概 
念 是 由 加 州 大 学 伯克利 分 校 的 Michael Stonebraker 于 1986 年 在 他 的 论文 “The Case 
for Shared Nothing” 中 提出 的 。 








shared nothing 近来 在 Google 被 发 扬 光 大 了 ， 他 们 实现 了 不 要 共享 状态 的 BigTable 
数据 库 和 MapReduce 分 布 式 计算 框架 ， 这些 系统 可 以 近 平 无 限 地 扩展 。Cassandra 
数据 库 也 是 shared-nothing 架构 的 ， 没 有 中 心 控 制 节点 ， 也 没有 主 从 之 分 ， 所 有 市 
点 是 对 等 的 。 








pe fi nf LAE http://db.cs.berkeley.edu/papers/hpts85-nothing.pdf 阅读 这 篇 1986 
心 。 年 的 论文 “The Case for Shared Nothing”。 这 篇 论文 非常 简短 ， 只 有 密 寥 
U^ 数 页 。 如 果 你 看 看 的 话 ， 就 会 发 现 很 多 shared-nothing 分 布 式 系统 架构 的 
特征 ， 诸 如 易于 达到 高 可 用 性 和 易于 扩展 到 大 量 节 点 等 都 恰恰 是 Cassandra 

所 擅长 的 。 











MongoDB 还 提供 了 自动 分 片 能 力 ， 用 于 失效 备 援 和 人 负载 均衡 。 很 多 非 关系 型 数据 
库 都 提供 了 这 项 自动 功能 ， 而 且 用 起 来 非常 方便 。 和 手工 创建 和 维护 自 定义 的 分 片 是 
个 技术 活 。 从 数据 架构 的 宏观 层面 了 解 分 片 十 分 有 必要 ， 但 具体 到 Cassandra， 它 是 
自动 化 的 ， 使 用 了 一 种 类 似 基于 键 值 分 片 的 方法 ， 将 数据 分 布 到 不 同 节 点 上 。 


4. 小 结 


总 之 ， 关 系 型 数据 库 非常 擅长 于 解决 其 些 数据 存储 问题 ， 但 因为 其 自身 特点 ， 当 系 
统 需要 扩展 的 时 候 ， 会 受到 很 强 的 制约 。 扩 展 时 ， 你 常常 得 想方设法 避免 Join 操 
作 ， 这 意味 着 数据 的 反 范 式 化 ， 意 味 着 需要 保存 数据 的 多 个 副本 ， 以 及 严重 地 破坏 
了 你 对 数据 库 和 应 用 的 最 初 设计 。 而 且 ， 你 几乎 必然 要 考虑 分 布 式 事务 的 问题 ， 这 
很 快 就 将 成 为 一 个 瓶 开 。 除 了 最 昂贵 的 RDBMS， 其 他 的 都 不 支持 补偿 操作 。 而 即 
使 你 花费 巨 资 天 了 最 昂贵 的 数据 库 ， 你 仍然 需要 对 那些 无 法 忽视 分 布 式 事务 的 地 方 
十 分 谨慎 地 选择 分 片 所 使 用 的 键 值 。 


或 许 ， 更 重要 的 是 ， 随 着 我 们 讨论 RDBMS 的 限制 ， 和 随 之 产生 的 用 于 克服 扩展 性 
问题 所 使 用 的 架构 策略 ， 一 幅 巨 图 正在 慢 慢 展开 。 可 以 看 出 ,一些 NoSQL 技术 或 
许 与 我 们 的 最 初 设想 相 比 其 实 并 不 激进 ， 也 不 算 吓人 ， 倒 更 像 是 一 些 我 们 管理 大 数 
据 库 时 就 在 做 的 工作 的 自然 表达 和 封装 。 
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1.2. ”互联 网 的 规模 


一 个 发 明 必 须 对 它 完成 时 的 世界 有 意义 ， 而 非 它 开始 时 的 。 





Ray Kurzweil 








基于 RDBMS 的 一 些 内 在 的 设计 初 囊 ， 它 并 不 像 其 他 的 系统 一 样 那么 容易 进行 扩展 ， 
尤其 是 相 比 于 一 些 新 近 的 ， 在 设计 时 考虑 了 互联 网 的 结构 的 系统 。 不 过 ， 我 们 不 但 
需要 考虑 互联 网 的 静态 结构 ， 还 需要 考虑 它 难以 置信 的 扩张 速度 ， 因 为 随 着 越 来 越 
多 的 数据 积累 ， 我 们 和 希望 系统 架构 可 以 让 我 们 的 组 织 利 用 即时 的 数据 来 支持 决策 ， 
为 用 户 提供 更 强大 的 新 功能 和 高 性 能 。 























er 有 一 个 不 太 容 易 考 证 的 传说 ，17 世纪 的 英国 诗人 John Milton 阅读 过 地 球 
54. 上 曾经 出 版 过 的 所 有 书 。Milton 精通 多 种 语言 (他 去 世 前 甚至 还 在 学 习 印 
"^O 第 安 部 落 纳 瓦 霍 的 语言 )， 而 且 那 个 年 代 每 年 出 版 的 图 书 大 概 是 上 千 册 ， 所 
以 ， 全 都 读 过 也 并 非 不 可 能 。 但 从 那 时 至 今 ， 数 据 的 增 量 就 难以 记述 了 。 
































众所周知 ， 互 联网 还 在 快速 发 展 中 。 现 在 让 我 们 花 一 点 时 间 来 看 看 IDC 的 研究 报告 
《扩展 中 的 数字 世界 》 中 的 一 些 数字 。( 全 文 可 以 在 http:Wwww.emc.comy/collateral/ 
analyst-reports/ expanding-digital-idc-white-paper.pdf 获得 。) 


。 YouTube 每 天 播 出 1 亿 段 视频 。 
。 Chevron 每 天 积累 2 TB 数据 。 
。 2006 年 ， 互 联网 的 总 数据 量 大 约 是 166 EB， 而 到 了 2010 年 ， 这 个 数字 大 约 是 
1000 EB 了 。1 EB 是 10” 字 节 ， 即 110 万 TB。 更 直观 地 说 ，1 EB 大 约 相 当 于 5 万 
年 长 的 DVD 画 质 的 视频 ， 而 166 EB 大 约 是 所 有 图 书 的 信息 量 总 和 的 300 万 倍 。 
沃尔玛 的 顾客 交易 数据 库 在 2000 年 大 约 是 110 TB， 每 天 记录 大 约 上 千 万 条 。 到 了 
2004 年 ， 这 个 数据 库 已 经 有 大 约 5000 TB 了 。 
影 阿 几 达 的 制作 过 程 中 大 约 需 要 用 到 1 PB 的 存储 空间 , 如 果 这 是 1 首 MP3 的 话 ， 
可 以 播放 32 年 (RUR: http://bit.ly/736XCz)。 
。 20104E 5 H, Google 每 天 发 售 10 万 部 Android 手机 ， 所 有 这 些 手机 都 以 互联 网 访 
问 为 基本 服务 。 
。 在 1998 年 ， 全 球 email 账号 大 约 有 2.53 亿 个 ， 到 2010 年 ， 这 一 数字 接近 20 亿 。 


可 见 ， 互 联网 上 需要 存储 、 处 理 与 查询 各 种 数据 ， 使 用 这 些 数 据 的 业务 也 各 不 相 
同 ， 不 仅 需 要 考虑 零售 供应 商 们 的 客户 数据 ， 也 不 仅 是 数字 视频 ， 还 有 需要 数字 化 
的 电视 节目 、 爆 炸 式 增长 的 email、 即 时 消息 、 手 机 、 射 频 识 别 (RFID), IP 电话 
(VoIP) ， 等 等 。 现 在 我 们 有 蓝光 播放 器 播放 音频 和 视频 流 。 随 着 我 们 开始 离开 物理 
存储 介质 ， 提 供 媒体 内 容 的 公司 ， 以 及 在 他 们 外 围 提 供 增 值 服务 的 第 三 方 ， 都 需要 











12 | 第 1 章 


极为 可 扩展 的 存储 解决 方案 。 再 考虑 一 下 ， 作 为 典型 的 应 用 开发 者 或 数据 库 管理 员 ， 
我 们 可 能 习惯 于 把 关系 型 数据 库 看 做 是 世界 的 中 心 。 但 其 实在 企业 中 ，80% 的 数据 
都 是 非 结 构 化 的 。 





你 或 许 觉 得 Cassandra 之 类 的 NoSQL 解决 方案 所 提供 的 大 规模 与 你 无 关 。 可 能 确实 
如 此 ， 可 能 你 并 没有 过 到 Cassandra 能 帮 得 上 你 的 问题 。 我 也 并 没有 让 你 直接 对 现 
有 的 数据 库 和 里 面 的 数据 动手 ， 将 它们 迁移 到 Cassandra。 那 将 是 非常 困难 的 一 项 工 
作 ， 而 且 短 时 间 内 很 难 收 到 回报 。 几 乎 可 以 肯定 ， 你 现 有 的 数据 库 是 最 适合 你 的 应 
用 系统 的 。 但 如 果 能 够 并 入 更 多 更 丰富 的 数据 集 ， 来 改进 你 的 应 用 ， 你 希望 数据 库 
可 以 有 什么 样 的 品质 呢 ?” 这 个 问题 进一步 转化 为 ， 如 果 有 一 个 可 靠 、 有 了 弹性、 可 扩 
展 、 超 大 容量 而 且 写 入 速度 超 快 的 存储 系统 ， 你 希望 你 的 应 用 变 成 什么 样子 呢 ? 









































立足 于 当今 互联 网 的 规模 ， 面 向 未 来 ，Apache Cassandra 可 能 是 你 的 答案 之 一 。 


1.3 Cassandra 的 电梯 间 演 讲 


不 论 是 好 莱 坞 的 剧 作家 还 是 初创 的 软件 公司 ， 都 被 建议 准备 好 他 们 的 “电梯 间 演 
讲 ”。 这 个 演讲 是 他 们 的 产品 的 简洁 介绍 ， 要 求 是 在 一 两 分 钟 内 简明 扼要 地 介绍 他 们 
的 产品 ， 以 便 在 万 一 能 很 幸运 地 和 一 个 主管 、 代 理 或 是 投资 人 一 起 挤 上 同一 个 电梯 
的 时 候 ， 能 够 说 服 他 来 投资 这 个 项 目 。Cassandra 如 此 引人入胜 ， 让 我 们 来 访 缩 一 个 
电梯 间 演 说 ， 以 便 你 能 说 服 你 的 经 理 和 同事 给 Cassandra 一 个 机 会 。 











1.3.1 50 个 字 介 绍 Cassandra 

“Apache Cassandra 是 一 个 开源 的 、 分 布 式 、 无 中 心 、 弹 性 可 扩展 、 高 可 用 、 容 错 、 
一 致 性 可 调 、 面 向 列 的 数据 库 ， 它 基于 Amazon Dynamo 的 分 布 式 设计 和 Google 
BigTable 的 数据 模型 ， 由 Facebook 创建 ,已 经 在 一 些 最 流行 的 网 站 中 取得 了 应 用 。” 
英文 刚好 50 个 字 ， 中 文 也 不 到 100 个 。 


当然 ， 如 果 你 只 是 在 电梯 里 背 这 些 说 词 给 你 的 老板 的 话 ， 可 能 只 能 得 到 一 个 白眼 。 
所 以 ， 让 我 们 在 后 面 的 小 节 里 分 别 讨论 一 下 这 些 关 键 点 。 








1.3.2 分布 式 与 无 中 心 

Cassandra 是 分 布 式 的 ， 这 意味 着 它 可 以 运行 在 多 台 机 器 上 ， 并 呈现 给 用 户 一 个 一 致 
的 整体 。 事实 上 ， 在 一 个 节点 上 运行 Cassandra 毫 无 意义 。 虽 然 你 确实 可 以 这 么 做 ， 
而 且 这 可 以 帮 你 了 解 它 的 工作 机 制 ， 但 你 很 快 会 意识 到 ， 需 要 多 个 市 点 才能 真正 了 
解 Cassandra 的 好 处 。 它 的 很 多 设计 和 实现 让 系统 不 仅 可 以 在 多 市 点 上 运行 ， 更 为 
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多 机 架 部 署 进行 了 优化 ， 甚 至 一 个 Cassandra 集群 可 以 运行 在 分 散 于 各 地 的 多 个 数 
据 中 心 上 。 你 可 以 放心 地 将 数据 写 到 集群 中 的 任意 一 台 机 器 上 ，Cassandra 都 会 收 到 
数据 。 


对 于 很 多 存储 系统 (如 MySQL，Bigtable)， 一 旦 你 开始 扩展 它 ， 就 需要 把 某 些 节 
点 设 为 主 节 点 ， 其 他 则 作为 从 节点 。 但 Cassandra 是 无 中 心 的 ， 也 就 是 说 每 个 节点 
都 是 一 样 的 ， 没 有 市 点 会 承担 特殊 的 管理 任务 。 与 主 从 结构 相反 ，Cassandra 的 协议 
是 P2P 的 ， 并 使 用 gossip 来 维护 存活 或 死亡 节点 的 列表 。 


无 中 心 这 一 事实 意味 着 Cassandra 不 会 存在 单 点 失效 。Cassandra 集群 中 的 所 有 节点 
的 功能 都 完全 一 样 ， 有 时 这 被 叫做 “服务 器 对 称 "”。 与 你 见 过 的 MySQL, BigTable 
这 样 的 主 从 式 的 系统 不 同 ， 因 为 Cassandra 的 所 有 节点 的 工作 都 是 相同 的 ， 从 根本 
上 就 没有 一 个 特殊 的 主机 作为 主 节 点 来 承担 协调 任务 。 


在 很 多 分 布 式 存储 方案 中 (比如 RDBMS 集群 )， 你 需要 在 一 个 叫做 replication 的 
进程 里 设置 ， 让 数据 在 不 同 服 务 器 上 存放 多 个 副本 ， 它 会 把 数据 复制 到 多 台 机 器 
上 上， 这样 这 些 机 器 就 可 以 同时 提供 服务 ， 从 而 提高 系统 性 能 。 通 常 这 个 进程 不 采用 
Cassandra 这 样 的 无 中 心 设计 ， 而 是 依照 预先 设 定 的 主 从 角色 来 工作 。 这 样 ， 这 种 集 
群 中 的 服务 器 的 功能 就 不 是 相同 的 。 需 要 让 集群 中 的 一 个 服务 器 作为 主 节点 ， 而 其 
他 则 作为 从 节点 。 主 节点 是 最 终 数据 控制 者 ， 与 其 他 节点 间 是 单身 的 数据 同步 关系 。 
如 果 主 节点 坏 了 ， 整 个 数据 库 就 难以 为 继 了 。 所 以 ， 无 中 心 的 设计 是 Cassandra 的 
高 可 用 性 的 关键 所 在 。 注 意 ， 虽 然 我 们 经 常 在 RDBMS 里 看 到 主 从 副本 机 制 ， 但 很 
多 NoSQL 数据 库 也 是 主 从 结构 的 ，MongoDB 就 是 一 例 。 


总 之 ， 无 中 心 架 构 有 两 个 关键 优势 : 不 仅 比 主 从 架构 更 简单 ， 而 且 可 以 避免 系统 宕 
机 。 比 起 主 从 结构 的 数据 存储 系统 来 说 ， 无 中 心 架 构 的 维护 更 方便 ， 因 为 所 有 市 
点 都 可 以 一 视 同仁 。 这 也 就 意味 着 你 不 必 为 扩展 来 考虑 更 多 的 东西 ， 搭 建 一 个 50 
个 节点 的 系统 和 搭建 一 个 单 节 点 的 系统 没什么 区 别 。 也 没有 什么 配置 上 的 特别 需 
求 来 支持 闻 点 扩展 。 更 进一步 ， 对 于 主 从 结构 来 说 ， 主 节点 很 容易 出 现 单 点 失效 
(SPOF)。 要 想 避 免 单 点 失效 ， 你 常常 需要 增加 系统 的 复杂 度 ， 构 成 多 主 市 点 。 而 
因为 所 有 Cassandra 的 节点 都 是 一 样 的 ， 损 失 任何 一 个 节点 对 系统 服务 都 没什么 大 
影响 。 

综 上 所 述 ， 因 为 Cassandra 是 分 布 式 、 无 中 心 的 ， 它 不 会 有 单 点 失效 ， 所 以 支持 高 
可 用 性 。 


1.3.3 ”弹性 可 扩展 
可 扩展 性 是 指 系统 架构 可 以 让 系统 提供 更 多 的 服务 而 不 降低 使 用 性 能 的 特性 。 仅 仅 
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通过 给 现 有 的 机 器 增加 硬件 的 容量 、 内 存 进 行 垂直 扩展 ， 是 最 简单 的 达到 可 扩展 性 
的 手段 。 而 水 平 扩展 则 需要 增加 更 多 机 器 ， 每 台 机 器 提供 全 部 或 部 分 数据 ， 这 样 所 
有 主机 都 不 必 人 负担 全 部 业务 请 求 。 但 软件 自己 需要 有 内 部 机 制 来 保证 集群 中 市 点 间 
的 数据 同步 。 


弹性 可 扩展 是 指 水 平 扩 展 的 特性 ， 意 即 你 的 集群 可 以 不 间断 服务 地 扩展 或 缩减 规模 。 
要 做 到 这 点 ， 集 群 必须 能 够 在 不 大 幅 修 改 或 重新 配置 的 情况 下 ， 接 收 那 些 新 加 入 、 
获得 全 部 或 部 分 数据 的 节点 ， 让 它们 开始 提供 服务 。 你 不 需要 重新 启动 进程 ， 不 必 
修改 应 用 的 查询 ， 也 无 需 自己 手工 重新 均衡 数据 分 布 。 在 Cassandra 里 ， 你 只 要 加 
入 新 的 计算 机 ，Cassandra 就 会 自动 地 发 现 它 并 开始 让 它 工作 。 


当然 ， 缩 减 规模 意味 着 你 要 从 集群 中 移 走 部 分 处 理 能 力 。 当 你 的 应 用 要 迁移 到 别 的 
平台 上 ， 或 是 应 用 失去 用 户 ， 你 不 得 不 卖 掉 部 分 硬件 的 时 候 ， 你 可 能 不 得 不 这 么 做 。 
让 我 们 祈祷 这 永远 都 不 会 发 生 吧 。 不 过 万 一 要 是 发 生 了 ， 你 也 不 需要 为 规模 的 缩减 
来 让 整个 系统 变 得 混乱 不 堪 。 











1.3.4 高 可 用 与 容错 

从 一 般 架 构 的 角度 看 ， 系 统 的 可 用 性 是 由 满足 请 求 的 能 力 来 量度 的 。 但 计算 机 可 能 
会 有 各 种 各 样 的 故障 ， 从 硬件 器 件 故 障 到 网 络 中 断 都 有 可 能 。 任 何 计算 机 都 可 能 发 
生 这 些 情况 。 当 然 有 某 些 非常 复杂 (通常 也 特别 昂贵 ) 的 计算 机 可 以 自己 应 付 很 多 
情况 ， 它 们 一 般 都 有 硬件 元 余 ， 并 在 发 生 故 障 事件 的 情况 下 会 自动 响应 并 进行 热切 
换 。 但 任何 人 都 可 能 会 偶然 碰 断 以 大 网 线 ， 这 时 一 个 单独 的 数据 中 心 就 会 有 灾难 发 
生 ， 这 些 都 是 无 法 避免 的 。 所 以 ， 对 于 一 个 需要 高 可 用 的 系统 ， 它 必须 由 多 台 联 网 
的 计算 机 构成 ， 并 且 运 行 于 其 上 的 软件 也 必须 能 够 在 集群 条 件 下 工作 ， 有 设备 能 够 
识别 节点 故障 ， 并 将 发 生 故 障 的 中 断 的 功能 在 剩余 系统 上 进行 恢复 。 





Cassandra 就 是 高 可 用 的 。 你 可 以 在 不 中 断 系 统 的 情况 下 替换 故障 节点 ， 还 可 以 把 数 
据 分 布 到 多 个 数据 中 心里 ， 从 而 提供 更 好 的 本 地 访问 性 能 ， 并 且 在 其 一 数据 中 心 发 
生火 灾 、 洪 水 等 不 可 抗灾 难 的 时 候 防 止 系 统 彻底 瘫痪 。 





1.3.5 ”可 调节 的 一 致 性 

一 致 性 的 基本 含义 是 读 操作 一 定 会 返回 最 新 写 和 人 的 结果 。 考 虑 电子 商务 网 站 的 两 个 
客户 同时 要 把 一 个 商品 放 到 他 们 的 购物 车 里 的 情景 。 如 果 我 在 你 刚刚 拿 走 最 后 一 个 
商品 的 时 候 也 要 把 商品 放 到 自己 的 购物 车 里 ， 那 么 你 应 该 得 到 这 个 商品 ， 而 我 应 该 
被 告知 商品 已 经 售 完了 。 在 把 状态 一 致 地 写 到 所 有 有 此 数据 的 节点 的 时 候 ， 这 点 是 
得 到 保证 的 。 
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但 是 ， 天 下 没有 免费 的 午餐 ， 后 面 我 们 还 会 看 到 ， 扩 展 数据 存储 系统 就 意味 着 我 们 
不 得 不 在 数据 一 致 性 、 节 点 可 用 性 和 分 区 耐 受 性 之 间 做 某 些 折 圳 。Cassandra 常 被 称 
作 是 “最 终 一 致 性 ”"， 这 实际 有 点 让 人 误解 。 简 单 地 说 ，Cassandra 辆 性 了 一 点 一 至 
性 来 换取 了 完全 的 可 用 性 。 但 是 Cassandra 实际 更 应 该 表述 为 “可 调 一 致 性 ”， 它 多 
许 你 来 方便 地 选 定 需要 的 一 致 性 水 平 与 可 用 性 水 平 ， 在 二 者 间 找 到 平衡 点 。 


“最 终 一 致 性 ”这 个 名 词 让 业界 有 些 骚动 ， 一 些 人 对 于 一 个 被 称 为 “最 终 一 致 ”的 系 
统 非 常 不 放心 ， 这 里 让 我 们 来 具体 解读 一 下 。 


最 终 一 致 性 的 批评 者 有 一 个 比较 宽容 的 说 法 。 或 许 最 终 一 致 性 对 社交 应 用 可 能 还 可 
以 ， 因 为 数据 并 不 那么 重要 。 毕 竟 你 给 妈妈 贴 出 了 小 Billy 吃 了 什么 早餐 这 样 的 事 
情 即 使 委 了 也 没什么 大 不 了 的 。 但 我 的 数据 却 非 常 重要 ， 在 我 的 数据 模型 里 ， 绝 对 
\ 会 允许 最 终 一 致 性 这 种 可 笑 的 事情 发 生 。 


可 是 事实 上， 大 部 分 最 流行 的 网 络 应 用 OEE, Facebook, Google, Twitter) 都 
在 使 用 这 一 模型 ， 它 应 该 确实 有 可 取 之 处 。 这 些 数 据 对 于 运营 这 些 应 用 的 公司 来 说 
也 应 该 是 非常 重要 的 ， 毕 竞 这 是 他 们 赖 以 生存 的 产品 ， 而 且 这 些 公司 在 竞争 如 此 激 
烈 的 世界 里 已 经 成 长 为 数 十 亿美 元 营 收 的 巨头 ， 拥 有 几 十 亿 有 用户。 或 许 真 的 有 系统 
可 以 保障 在 这 样 一 个 高 流量 、 接 入 不 同 网 络 的 系统 里 ， 能 够 得 到 即时 、 有 保障 而 且 
完美 的 一 致 性 ， 不 过 你 现在 可 能 还 找 不 到 这 样 的 完美 系统 。 


批评 者 们 抱怨 Cassandra 之 类 的 海量 数据 库 只 支持 最 终 一 致 性 ， 而 其 他 分 布 式 系统 
可 以 支持 严格 一 致 性 。 但 是 世界 如 此 丰富 多 彩 ， 事 实 也 从 来 不 是 非 黑 即 白 ， 要 么 一 
致 、 要 么 不 一 致 这 样 的 二 元 论 并 不 能 真实 地 反映 实际 情况 。 实 际 上 一 致 性 也 是 有 很 
多 不 同 级 别 的 ， 而 且 在 真实 世界 里 ， 一 致 性 也 会 受到 不 同 外 部 环境 的 极 大 影响 。 


最 终 一 致 性 是 架构 师 们 可 选 的 多 种 一 致 性 模型 中 的 一 个 。 让 我 们 现在 来 看 看 这 些 做 
了 不 同 折 中 的 模型。 


。 严格 一 致 性 

有 时 也 叫做 顺序 一 致 性 ， 是 最 严格 的 一 致 性 要 求 。 它 要 求 所 有 读 操 作 总 是 返回 最 
新 的 写 结 果 。 这 听 起 来 很 好 ， 似 乎 确实 是 我 们 所 需要 的 。 就 选 它 好 了 ! 但是， 再 
仔细 看 看 ， 我 们 还 会 看 到 什么 ? “最 新 的 写 结果 ”到 底 意 味 着 什么 ?最 新 写 给 谁 
HJ? 在 一 个 单 处 理 器 的 机 器 里 ， 不 会 看 出 任何 问题 ， 因 为 无 论 如 何 操作 都 会 逐一 
顺序 进行 。 但 是 ， 当 系统 分 布 在 位 置 分 散 的 多 个 数据 中 心 的 时 候 就 变 得 不 那么 可 
靠 。 要 达到 严格 一 致 性 ， 需 要 某 种 全 局 锁 机 制 来 给 每 个 操作 加 上 一 个 时 间 戳 ， 不 
论 数据 位 于 何 处 ， 用 户 位 于 何 处 ， 也 不 论 得 到 响应 需要 访问 多 少 服务 ， 而 且 这 些 
服务 还 可 能 是 分 散 的 。 
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。 因果 一 致 性 
这 种 一 致 性 模型 比 严格 一 致 性 稍 弱 。 这 种 模型 消除 了 幻想 中 的 需要 同步 一 切 操作 
的 单一 的 全 局 锁 ， 避 免 了 无 法 承受 的 瓶 颈 。 因 有 果 一 致 性 不 依赖 于 时 间 惟 ， 它 使 用 
更 为 语义 化 的 方法 ， 尝 试 去 判断 事件 的 原因 ， 并 按照 因果 关系 来 达到 一 致 性 。 这 
意味 着 六 在 相关 的 写 操作 必须 被 顺序 读 出 。 如 果 两 个 彼此 无 关 的 不 同 操作 同时 写 
同一 个 域 ， 那 么 这 些 写 操作 可 以 被 推断 出 并 不 是 因果 相关 的 。 而 如 果 一 个 操作 紧 
接着 一 个 进行 ， 这 可 能 就 是 因果 相关 的 了 。 因 果 一 致 性 要 求 ， 相 关 的 写 操作 必须 
被 顺序 读 出 。 


。 弱 一 致 性 〈 最 终 一 致 性 ) 
最 终 一 致 性 从 字面 上 解释 就 是 更 新 终 将 传播 到 整个 分 布 式 系统 的 每 个 角落 ， 但 这 
需要 一 定 的 时 间 。 最 终 ， 所 有 副本 都 会 是 一 致 的 。 


当 你 考虑 需要 如 何 才能 达到 更 好 的 一 致 性 的 时 候 ， 最 终 一 致 性 忽然 变 得 很 有 吸引 力 。 


在 考虑 一 致 性 、 可 用 性 和 分 区 耐 受 性 时 ， 对 于 一 个 给 定 的 系统 ， 我 们 只 能 达到 其 中 
的 两 个 目标 (我 们 会 在 下 一 节 Brewer HJ CAP 理论 来 详细 讨论 这 个 问题 )。 中 心 问题 
实际 是 多 副本 数据 的 更 新 问题 。 要 达到 强 一 致 性 ， 所 有 副本 上 的 操作 都 必须 同步 进 
行 ， 这 就 意味 着 它们 必须 要 阻塞 ， 锁 定 所 有 的 副本 ， 直 到 操作 完成 ， 这 一 过 程 中 ， 
系统 必须 被 阻塞 ， 锁 定 所 有 的 副本 ， 所 有 有 竞争 关系 的 客户 端 都 不 得 不 等 待 这 一 操 
作 的 完成 。 这 个 系统 的 副作用 就 是 ， 一 旦 系统 中 的 某 些 节点 出 故障 的 时 候 ， 有 些 数 
据 就 成 为 不 可 用 的 了 。 正 如 亚马逊 的 CTO Werner Vogels 所 说 的 :“ 数 据 在 被 确定 
完全 正确 之 前 都 是 不 可 用 的 ， 而 不 用 去 试图 解决 答案 的 正确 性 。” (275 "Dynamo: 
Amazon's Highly Distributed Key-Value Store", http://www.allthingsdistributed. 
com/2007/10/amazons dynamo.html, 5& 207 W.) 


我 们 可 以 换 用 更 乐观 的 方法 来 进行 副本 复制 一 一 为 了 避免 影响 客户 端的 操作 ， 在 后 
台 进 行 更 新 的 传播 工作 。 这 种 方法 的 难点 在 于 ， 现 在 我 们 又 遇 到 如 何 判断 和 解决 冲 
突 这 个 问题 了 。 在 设计 一 个 系统 时 ， 我 们 必须 判断 ， 是 在 读 的 时 候 解 决 冲突 还 是 在 
写 的 时 候 解 决 冲突 。 对 于 一 个 分 布 式 数据 库 的 设计 者 ， 必 须要 进行 一 个 抉择 一 一 数 
据 库 应 该 总 是 可 读 的 还 是 总 是 可 写 的 。 

Dynamo 和 Cassandra 的 选择 是 总 是 可 写 ， 而 把 判断 冲突 的 问题 留 给 了 读 操作 ， 从 而 
获得 了 很 好 的 性 能 增益 。 另 一 种 方案 可 能 会 在 网 络 或 服务 器 发 生 故 障 的 时 候 拒绝 更 
新 操作 。 

在 Cassandra 中 ， 一 致 性 并 非 一 个 “要 么 全 有 ， 要 么 全 无 ”问题 ， 我 们 或 许 应 该 更 精确 


地 称 之 为 “可 调 的 一 致 性 ”， 因 为 客户 端 可 以 控制 在 更 新 到 达 多 少 个 副本 之 前 ， 必 须 阻 
塞 系统 。 这 是 通过 设置 副本 因子 (replication factor) 来 调节 与 之 相对 的 一 致 性 级 别 。 
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通过 副本 因子 (replication factor), ， 你 可 以 决定 准备 牺牲 多 少 性 能 来 换取 一 致 性 。 
副本 因子 是 你 要 求 更 新 在 集群 中 传播 到 的 节点 数 (注意 ， 更 新 包括 所 有 增加 、 删 除 
和 更 新 操作 ) 。 


客户 端 每 次 操作 还 必须 设置 一 个 一 致 性 级 别 (consistency level) 参数 ， 这 个 参数 决 
定 了 多 少 个 副本 写 入 成 功 才 可 以 认定 写 操作 是 成 功 的 ， 或 者 读 取 过 程 中 读 到 多 少 个 
副本 正确 就 可 以 认定 是 读 成 功 的 。 这 里 ，Cassandra 把 决定 一 致 性 程度 的 权利 留 给 了 
客户 自己 。 


所 以 ， 如 果 需 要 的 话 ， 你 可 以 设 定 一 致 性 级 别 和 副本 因子 相等 ， 从 而 达到 一 个 较 高 
的 一 致 性 水 平 ， 不 过 这 样 就 必须 付出 同步 阻塞 操作 的 代价 ， 只 有 所 有 节点 都 被 更 新 
完成 才能 成 功 返 回 一 次 更 新 。 而 实际 上 ，Cassandra 一 般 都 不 会 这 么 来 用 ， 原 因 显 
而 易 见 〈 这 样 就 走失 了 可 用 性 目标 ， 影 响 性 能 ， 而 且 这 不 是 你 选择 Cassandra 的 初 
衷 )。 而 如 果 一 个 客户 端 设 置 一 致 性 级 别 低 于 副本 因子 的 话 ， 即 使 有 节点 罕 机 了 ， 仍 
然 可 以 写成 功 。 








1.3.6 ” Brewer 的 CAP 理 论 

要 理解 Cassandra 的 设计 和 它 所 谓 的 “最 终 一 致 性 ”数据 库 ， 我 们 首先 需要 了 解 一 
下 CAP 理论 。CAP 理论 由 Eric Brewer 提出 ， 所 以 有 时 又 被 称 为 Brewer 理论 。 

2000 年 ， 当 时 在 加 州 大 学 伯克利 分 校 工作 的 Eric Brewer Æ ACM 分 布 式 计算 原理 
会 议 上 提出 了 CAP 理论 。 依 据 这 个 理论 ， 在 一 个 大 规模 分 布 式 数据 系统 中 ， 有 三 个 
需求 是 彼此 循环 依赖 的 : 一 致 性 、 可 用 性 和 分 区 耐 受 性 。 








。 一 致 性 (Consistency) 
对 于 所 有 的 数据 库 客户 端 使 用 同样 的 查询 都 可 以 得 到 同样 的 结果 ， 即 使 是 有 并 发 
更 新 的 时 候 也 是 如 此 。 


。 可 用 性 (Availability) 
所 有 的 数据 库 客 户 端 总 是 可 以 读 写 数据 。 


。 分 区 耐 受 性 (Partition Tolerance) 
数据 库 可 以 分 散 到 多 台 机 器 上 ， 即 使 发 生 网 络 故障 ， 被 分 成 多 个 分 区 ， 依 然 可 以 
提供 服务 。 


Brewer 理论 是 说 ， 对 于 任意 给 定 系统 ， 只 能 强化 这 三 个 特性 中 的 两 个 。 这 很 类 似 于 
软件 开发 中 的 名 言 :“ 你 可 以 让 软件 很 好 ， 让 它 很 快 ， 或 者 很 便宜 : 不 过 三 个 里 面 你 


只 能 选择 两 个 。 
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由 于 循环 依赖 关系 ， 我 们 不 得 不 在 它们 之 中 做 出 选择 。 比 如 ， 你 期 望 获得 更 强 的 一 
致 性 ， 那 可 能 就 只 能 拥有 较 低 的 分 区 耐 受 性 ， 除 非 你 在 可 用 性 上 做 一 些 让 步 。 





CAP 理论 在 2002 年 被 MIT 的 Seth Gilbert £l Nancy Lynch 所 证 明 。 不 过 ， 在 分 布 
式 系 统 中 你 将 不 得 不 面 对 网 络 分 区 的 问题 ， 而 且 在 某 些 时 候 ， 机 器 也 常常 出 现 故障 ， 
从 而 导致 某 些 节点 不 可 达 。 丢 包 同 样 是 与 生 俱 来 的 问题 。 所 以 ， 我 们 可 以 得 到 结论 ， 
一 个 分 布 式 系统 必须 尽力 在 网 络 发 生 分 裂 的 情况 下 继续 工作 (具有 分 区 耐 受 性 ) 3x 
样 我 们 实际 上 只 能 在 剩 下 的 两 个 特性 里 二 选 一 : 可 用 性 或 是 一 致 性 。 


如 图 1-1 所 示 ， 三 个 特性 没有 相互 交 全 的 区 域 。 









































SA 


| 


1-1: CAP 理论 指出 ， 同 时 只 能 具有 这 三 个 特性 中 的 两 个 


通过 图 示 来 观看 每 个 不 同 的 非 关系 型 数据 存储 系统 在 CAP 图 谱 中 排 在 什么 位 置 ， 
可 能 更 有 助 于 理解 这 个 概念 。 图 1-2 是 在 2009 £ MongoDB 的 创始 人 和 CEO, 
Dwight Merriman 在 纽约 MySQL 用户 组 演讲 的 幻灯 片 的 基础 上 绘制 的 (你 可 以 在 
http://bit.ly/7r6kRg 查看 这 个 幻灯 片 )。 这 里 ， 我 根据 我 的 研究 修改 了 某 些 系统 在 图 
中 的 位 置 。 


























1-2 显示 了 我 们 本 章 中 讨论 的 几 种 不 同 数据 库 系统 的 关注 焦点 。 广 意 ， 图 中 的 数 
据 库 的 位 置 与 其 具体 配置 有 关 。 正 如 Stu Hood 指出 的 ， 一 个 分 布 式 MySQL 数据 库 
只 有 在 使 用 了 Google 的 同步 复制 补丁 的 时 候 才 可 以 被 认为 是 一 致 的 系统 ， 否 则 ， 它 
应 该 只 能 被 看 做 是 可 用 和 分 区 耐 受 的 系统 。 


非常 有 趣 的 一 点 是 ， 一 个 系统 在 CAP 体系 中 所 处 的 位 置 和 一 个 存储 机 制 最 初 被 发 明 
时 想 要 解决 的 问题 ， 两 者 并 不 一 定 是 一 致 的 ， 比 如 ，CP 边 上 既 有 图 数据 库 ， 也 有 面 
向 文档 的 数据 库 。 
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关系 型 . 亚马逊 Dynamo 的 衍生 品 : 
MySQL, SQL Server, Cassandra, Voldemort, 
Postgres CouchDB, Riak 


(= 
Neo4J. Google Bigtable 和 
Bigtable derivatives; MongoDB HBase, 

Hypertable, Redis 


1-2: 数据 库 在 CAP 连 线 上 的 位 置 


在 这 张 图 里 ， 关 系 型 数据 库 通常 会 在 一 致 性 和 可 用 性 的 连 线 上 ， 这 意味 着 它们 在 网 
络 失效 的 时 候 (比如 网 线 中 断 ) 都 会 无 法 工作 。 这 通常 是 由 于 设置 了 一 个 单 主 节点 
造成 的 ， 因 为 主 节 点 可 能 发 生 故 障 ， 其 他 的 一 组 服务 器 也 可 能 没有 足够 的 机 制 让 它 
们 在 网 络 分 裂 的 情况 下 能 继续 提供 服务 。 


诸如 Neo4J 之 类 的 基于 图 的 数据 库 和 或 多 或 少 沿 袭 自 Google 的 BigTable 的 设计 的 
数据 库 (如 MongoDB, HBase, Hypertable 以 及 Redis) 全 都 较 少 地 关注 可 用 性 ， 
更 多 地 强调 一 致 性 和 分 区 耐 受 性 。 
































如 果 你 对 海量 数据 存储 或 是 NoSQL 数据 库 的 特性 有 兴趣 ， 可 以 看 一 下 本 
n^ 书 附录 。 


(SA 








最 后 ， 包 括 Cassandra, Voldemort, CouchDB 和 Riak Æ IN 8 7$ Z& A Amazon 的 
Dynamo 的 设计 的 数据 库 都 更 强调 可 用 性 和 分 区 耐 受 性 。 不 过 ， 这 并 不 意味 着 它们 
认为 一 致 性 不 重要 ， 它 们 舍弃 的 一 致 性 并 不 比 Bigtable 舍弃 的 可 用 性 更 多 。 按 照 
Bigtable 的 论文 ,“ 某 些 ” 数 据 的 平均 不 可 用 时 间 大 约 为 0.0047% (论文 第 4 市 )， 
这 就 是 说 ， 这 些 特 性 都 是 相对 的 ， 因 为 我 们 是 在 讨论 一 些 已 经 非常 可 靠 的 系统 。 你 
可 以 把 (C, A, P) 三 个 字母 看 做 是 儿 个 旋钮 ， 按 照 你 自己 的 需求 来 调节 系统 ， 
Dynamo 类 的 系统 倾向 于 那些 可 以 容忍 “最 终 一 致 性 ”的 场合 ， 这 里 的 “最 终 ” 实 
际 也 就 是 毫秒 级 的 时 间 ， 读 时 修复 意味 着 读 操作 可 以 返回 一 致 的 结果 ， 而 且 如 果 需 
要 ， 你 也 可 以 达到 强 一 致 性 。 

















那么 ， 实 际 上 ， 在 CAP 中 只 能 三 选 二 到 底 意 味 着 什么 呢 ? 


1 
C 


CA 

主要 支持 一 致 性 和 可 用 性 ， 这 意味 着 你 很 可 能 使 用 了 两 阶段 提交 的 分 布 式 事务 。 
也 就 是 说 ， 如 果 网 络 发 生 分 裂 ， 那 么 系统 可 能 会 停止 啊 应 ， 这 也 意味 着 你 的 系统 
很 可 能 被 限制 在 一 个 数据 中 心 集群 以 降低 网 络 分 区 发 生 的 可 能 性 。 如 果 你 只 需要 
这 个 级 别 的 规模 扩展 ， 那 么 可 以 选择 CA 取向 的 系统 ， 它 较 易 于 管理 ， 允 许 你 使 
用 简单 而 且 熟 悉 的 结构 。 








CP 

主要 支持 一 致 性 和 分 区 耐 受 性 ， 你 可 以 通过 改进 系统 架构 ， 设 置 数据 分 片 来 提升 
可 扩展 性 。 你 的 数据 将 保持 一 致 性 ， 但 如 果 有 市 点 发 生 故 障 ， 仍 然 会 有 部 分 数据 
无 法 访问 (不 可 用 )。 


AP 

主要 支持 可 用 性 和 分 区 耐 受 性 ， 你 的 系统 可 能 返回 不 大 精确 的 数据 ， 但 系统 将 始 
终 可 用 ， 即 使 是 网 络 发 生 分 区 的 时 候 也 是 如 此 。DNS 可 能 是 这 类 系统 中 最 为 普 
名 的 例子 了 ， 这 类 系统 可 扩展 性 非常 强 ， 高 可 用 ， 而 且 具 有 分 区 耐 受 性 。 


注意 ， 这 里 的 介绍 是 要 给 出 一 个 概观 ， 以 便 从 比较 高 的 维度 来 对 这 些 系统 

心 进行 比较 ， 但 实际 系统 的 区 分 并 不 是 这 么 绝对 。 比 如 ，Google 的 BigTable 

入。 在 这 个 体系 中 究竟 应 该 放 在 什么 位 置 就 并 不 确切 。Google 的 文件 中 声 
称 BigTable 是 “高 可 用 的 "， 不 过 在 文件 后 面 的 部 分 却说 ， 如 果 Chubby 
(BigTable 的 持久 化 锁 服 务 ) 由 于 服务 故障 或 是 网 络 问题 持续 不 可 用 超过 一 
段 时 间 的 话 ，BigTable 将 变 得 “不 可 用 ”( 论 文 第 4 节 )。 对 于 读 操作 ， 文 
件 说 ,“ 我 们 没有 考虑 数据 的 多 个 副本 和 其 他 由 于 视图 或 是 索引 造成 的 不 同 
形式 的 多 副本 的 可 能 性 。” 最 后 ， 文 件 指出 “BigTable 不 想 解 决 中 心 控 制 和 
拜占庭 容错 ”( 第 10 节 )。 由 于 这 些 不 太一 致 的 信息 ， 你 可 以 发 现 确定 一 个 
数据 库 的 CAP 到 底 在 什么 样 的 水 平 并 不 是 一 门 精确 科学 。 













































































.3.7 面向 行 
assandra 经 常 被 看 做 是 一 种 “面向 列 ” 的 数据 库 ， 这 也 并 不 算 错 。 它 的 数据 结构 不 





是 关系 型 的 ， 而 是 一 个 多 维 稀 玻 哈 希 表 。 “ 稀 距 ”意味 着 任何 一 行 都 可 能 会 有 一 列 或 
者 几 列 ， 但 每 行 都 不 一 定 〈 像 关系 模型 那样 ) 和 其 他 行 有 一 样 的 列 。 每 行 都 有 一 个 





唯一 的 键 值 ， 用 于 进行 数据 访问 。 所 以 ， 虽 然 说 Cassandra 是 面向 列 的 数据 库 不 是 





什么 错 ， 但 更 确切 地 说 ， 应 该 把 Cassandra 看 做 是 一 个 有 索引 的 、 面 向 行 的 存储 系 
统 ， 第 3 章 会 更 详细 地 解释 这 个 问题 。 我 把 面向 数据 当做 是 Cassandra 的 一 个 特征 ， 
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因为 在 非 关 系 型 模型 里 ， 有 多 种 易于 可 视 化 和 使 用 的 数据 模型 ， 而 且 ， 不 考虑 具体 
的 应 用 就 把 关系 型 模型 看 做 是 最 佳 解决 方案 的 结论 下 得 也 为 时 尚 早 。 


Cassandra 的 数据 存储 结构 基本 可 以 看 做 是 一 个 多 维 哈 希 表 。 这 意味 着 你 不 必 事 先 精 
确 地 决定 你 的 具体 数据 结构 或 是 你 的 记录 包含 哪些 具体 字段 。 这 特别 适合 处 于 草创 
阶段 ， 还 在 不 断 增加 或 修改 服务 特性 的 应 用 。 而 且 也 特别 适合 应 用 在 敏捷 开发 项 目 
中 ， 不 必 进 行 长 达 数 月 的 预先 分 析 。 对 于 使 用 Cassandra 的 应 用 ， 如 果 业 务 发 生变 
化 了 ， 只 需要 在 运行 中 增加 或 删除 某 些 字段 就 行 了 ， 不 会 造成 服务 中 断 。 

当然 ， 这 不 是 说 你 不 需要 考虑 数据 。 相 反 ，Cassandra 需要 你 换个 角度 看 数据 。 
Æ RDBMS 里 ， 你 得 首先 设计 一 个 完整 的 数据 模型 ， 然 后 考虑 查询 方式 ， 而 在 
Cassandra 里 ， 你 可 以 首先 思考 如 何 查 询 数据 ， 然 后 提供 这 些 数据 就 可 以 了 。 














1.3.8 无 schema 


你 需要 定义 Cassandra 的 外 层 容器 keyspace, keyspace 中 包含 了 若干 列 族 。keyspace 
在 逻辑 上 是 容纳 列 族 和 某 些 配置 属性 的 命名 空间 。 列 族 定义 了 相关 的 数据 的 名 字 和 
它们 的 排序 方式 。 除 此 之 外 ， 数 据 表 都 是 稀 跤 的， 你 可 以 直接 使 用 需要 的 列 来 添加 
数据 ， 不 需要 预先 定义 列 的 形式 。 在 Cassandra 里 ， 你 不 需要 使 用 昂贵 的 数据 建 模 
工具 ， 也 不 需要 写 出 复杂 的 包含 join 的 查询 语句 ， 只 需要 按照 查询 的 需要 来 进行 建 
模 ， 之 后 提供 数据 给 应 用 即 可 。 








1.3.9 高 性 能 

Cassandra 在 设计 之 初 就 特别 考虑 了 要 充分 利用 多 处 理 器 和 多 核 计 算 机 的 性 能 ， 并 考 
虑 在 分 布 于 多 个 数据 中 心 的 大 量 这 类 服务 器 上 运行 。 它 可 以 一 致 而 且 无 颖 地 扩展 到 
数 百 台 机 器 ， 存 储 数 TB 的 数据 。Cassandra 已 经 显示 出 了 高 负载 下 的 良好 表现 ， 在 
一 个 非常 普通 的 工作 站 上 ，Cassandra 也 可 以 提供 非常 高 的 写 吞 吐 量 。 而 如 果 你 增加 
更 多 的 服务 器 ， 你 还 可 以 继续 保持 Cassandra 所 有 的 特性 而 无 需 牺 性 性 能 。 











Tr 


1.4 Cassandra 来 自 何方 


Cassandra 数据 存储 系统 是 一 个 Apache 开源 项 目 ， 位 于 http://cassandra.apache.org。 
2007 年 Facebook 为 了 解决 消息 收 件 箱 的 搜索 问题 而 开始 了 Cassandra 项 目 ， 因 为 当 
时 他 们 遇 到 了 传统 的 方法 难以 解决 的 超大 数据 量 存储 的 可 扩展 性 问题 。 有 具体 说 来 ， 
项 目 团队 需要 处 理 大 量 的 消息 副本 、 消 息 的 反 加 索引 等 不 同形 式 的 数据 ， 需 要 处 理 
很 多 随机 读 和 并 发 随机 写 操作 。 

















这 个 团队 由 Jeff Hammerbacher 领导 ， 核 心 工 程 师 包括 Avinash Lakshman, Karthik 
Ranganathan 和 搜索 团队 的 工程 师 Prashant Malik。 源 代码 在 2008 年 7 月 公布 到 Google 
Code 上 ， 成 为 了 一 个 开源 项 目 。 但 2008 年 作为 Google Code 的 项 目 时 ， 还 只 有 
Facebook 的 工程 师 在 更 新 项 目 ， 未 形成 社区 力量 。 之 后 ， 在 2009 年 3 H, Cassandra 
成 为 了 一 个 Apache 孵化 器 项 目 ， 并 在 2010 4E. 2 H 17 日 成 为 了 Apache 顶级 项 目 。 








Facebook 的 Lakshman 和 Malik 写 的 关于 Cassandra 的 论文 “A Decentralized 
n^ . Structured Storage System” 可 以 在 这 里 访问 http://www.cs.cornell.edu/projects/ 
ladis2009/papers/lakshman-ladis2009.pdf。 














如 今 的 Cassandra 似乎 有 某 种 矛盾 性 : 感觉 上 Cassandra 很 新 很 激进 ， 但 它 植 根 于 很 
多 前 人 建立 和 信奉 的 标准 、 传 统 的 计算 机 科学 概念 和 信条 中 。Cassandra 是 一 个 实用 
主义 的 数据 库 ， 它 并 不 是 特地 做 得 和 关系 型 数据 库 不 同 来 标新立异 ， 也 不 是 某 几 个 
天 才 的 玩物 。 它 是 被 设计 用 来 解决 现 有 工具 还 不 能 解决 的 实际 问题 的 。 它 了 解 之 前 
方法 的 局 限 性 ， 并 专注 于 新 的 面向 大 规模 数据 的 新 世界 。 





Cassandra 如 何 得 名 的 


总 有 人 问 我 Cassandra 从 何 得 名 的 ， 让 我 有 点 奇怪 。 妆 我 听 到 这 个 项 目的 时 候 ， 
名 字 并 不 是 我 首先 想到 的 问题 。 不 过 这 确实 返 有 趣 的 ， 特 别 是 对 于 这 个 数据 
库 ， 它 的 名 字 确 实 是 有 讲 完 的 。 


在 希腊 神话 里 ，Cassandra 是 特洛伊 国王 Priam 和 Hecuba 王后 的 女儿 。Cassandra 
非常 美丽 ， 以 至 于 阿波 罗 给 了 她 预见 未 来 的 能 力 。 但 当 她 拒绝 阿波 罗 的 爱慕 
的 时 候 ， 遭 到 他 的 诅咒 。 从 此 ， 她 依然 可 以 精确 地 预知 未 来 ， 但 是 不 会 有 任 
何人 相信 她 。Cassandra 预知 了 她 的 特洛伊 城 终 将 履 灭 ， 但 却 无 力 阻 止 这 一 悲 
Æ]. Cassandra 分 布 式 数 据 库 就 据 此 命名 。 我 怀疑 这 个 名 字 有 点 调侃 德尔 竟 神 
3 (Delphi Oracle), Oracle 也 是 用 先知 命名 的 数据 库 。 











1.5 Cassandra 的 应 用 场景 





我 们 已 经 介绍 了 Cassandra 的 主要 特点 ， 对 Cassandra 的 长 处 有 了 一 定理 解 。 尽 管 
Cassandra 设计 精巧 、 功 能 出 色 ， 但 也 不 能 胜任 所 有 工作 。 所 以 ， 这 里 我 们 来 介绍 一 


下 Cassandra 最 擅长 的 领域 。 


1.5.1 大 规模 部 署 
你 可 能 不 会 开 着 一 辆 轻型 小 卡车 去 取 和 干洗 的 衣服 ， 小 卡车 显然 不 适合 这 种 工作 。 
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Cassandra 的 很 多 精巧 设计 都 专注 于 高 可 用 、 可 调 一 致 性 、P2P 协议 、 无 颖 扩展 等 ， 
这 些 都 是 Cassandra 的 卖点 。 这 些 特性 在 单 节 点 工作 时 都 是 没有 意义 的 ， 更 无 法 实 
现 它 的 全 部 能 

但 是 ， 单 节点 关系 数据 库 在 很 多 情况 下 可 能 正 是 我 们 需要 的 。 所 以 ， 你 需要 做 一 些 
评估 。 考 虑 你 期 望 的 流量 、 吞 吐 需 求 以 及 SLA 等 。 关 于 评估 没有 什么 硬性 的 指标 和 
要 求 ， 但 如 果 你 认为 有 几 种 关系 型 数据 库 可 以 很 好 地 应 付 你 的 流量 ， 提 供 不 错 的 性 
能 ， 那 可 能 选 关 系 型 数据 库 更 好 ， 简 单 地 说 ， 这 是 因为 RDBMS 更 易于 在 单机 上 运 
行 ， 你 也 更 熟悉 。 

但 是 ， 如 果 你 认为 需要 至 少儿 个 节点 才能 支撑 你 的 业务 ， 那 Cassandra 就 是 个 不 错 的 
选择 。 如 果 你 的 应 用 可 能 需要 数 十 个 节点 ， 那 Cassandra 可 能 就 是 个 很 棒 的 选择 了 。 


1.5.2” 写 密集 、 统 计 和 分 析 型 工作 

考虑 一 下 你 的 应 用 的 读 写 比例 ，Cassandra 是 为 优异 的 写 吞 叶 量 而 特别 优化 的 。 

许多 早期 使 用 Cassandra 的 产品 都 用 于 存储 用 户 状态 更 新 、 社 交 网 络 、 建 议 /评价 以 
及 应 用 统计 等 。 这 些 都 是 Cassandra 很 好 的 应 用 场景 ， 因 为 这 些 应 用 大 都 是 写 多 于 
读 的 ， 并 且 更 新 可 能 随时 发 生 并 伴 有 突 发 的 峰值 。 事 实 上 ， 支 撑 应 用 负载 需要 很 高 
的 多 客户 线程 并 发 写 性 能 ， 这 正 是 Cassandra 的 主要 特性 。 

根据 项 目的 wiki, Cassandra 已 经 被 用 于 开发 了 多 种 不 同 的 应 用 ， 包 括 一 个 窗口 化 
的 时 间 序 列 数 据 库 ， 一 个 用 于 文档 搜索 的 反 向 索引 ， 以 及 一 个 分 布 式 任务 优先 级 
队列 。 


1.5.3 地 区 分 布 


Cassandra 直接 支持 多 地 分 布 的 数据 存储 。Cassandra 可 以 很 容易 配置 成 将 数据 分 布 
到 多 个 数据 中 心 的 存储 方式 。 如 果 你 有 一 个 全 球 部 署 的 应 用 ， 那 么 让 数据 贴近 用 户 
会 获得 不 错 的 性 能 收益 ，Cassandra 正 适 合 这 种 应 用 场合 。 


1.5.4 变化 的 应 用 


如 果 你 正在 “初创 阶段 ， 业 务 会 不 断 改 进 ，Cassandra 这 种 没有 Schema 的 数据 模 
型 可 能 更 适合 你 。 这 让 你 的 数据 库 能 更 好 地 跟 上 业务 改进 的 步伐 。 


1.6 ” 谁 在 使 用 Cassandra 


不 管 怎么 说 ，Cassandra 还 是 处 在 初级 阶段 ， 在 本 书写 作 的 时 候 也 还 没有 达到 1.0 发 
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布 的 水 平 。 没 有 什么 易 用 的 图 形 化 的 管理 工具 可 用 ， 社 区 之 中 ， 也 还 有 一 些 内 部 和 
外 部 的 有 和 争议 的 设计 问题 。 但 是 即使 是 在 开发 的 早期 ， 它 作为 一 种 有 发 展 前 景 、 可 
用 而 且 稳定 的 数据 存储 系统 ， 已 经 被 很 多 知名 的 大 公司 用 到 了 产品 之 中 。 


实际 上 ， 有 一 种 被 称 为 “从 众 廖 误 ”的 逻辑 雇 误 ， 即 那些 很 流行 、 很 大 众 
(au, 化 的 东西 就 被 认为 是 对 的 。Cassandra 毫 无 疑问 有 一 个 火箭 式 的 上 升 期 ， 特 
"^N 别 是 在 过 去 一 年 里 。 不 过 ， 我 仍然 认为 这 些 在 不 同 公司 的 不 同 产品 中 的 应 

用 至 少 可 以 证 明 Cassandra 是 有 用 的 ， 而 且 已 经 随时 可 用 。 


























正在 使 用 Cassandra 的 公司 还 在 增长 中 ， 这 些 公司 如 下 。 


。 Twitter 正在 使 用 Cassandra 做 数据 分 析 。 在 一 篇 广 为 引 用 的 博客 里 (http://engineering. 
twitter.com/2010/07/cassandra-at-twitter-today.html ) , Twitter 的 主要 Cassandra 工程 
师 Ryan King 解释 道 ，Twitter 决定 不 会 像 开始 计划 的 那样 使 用 Cassandra 作为 其 主 
要 的 tweets 存储 系统 ， 但 还 会 将 Cassandra 用 于 多 个 不 同 的 地 方 ， 包括 : 实时 分 析 ， 
地 理 和 位 置信 息 ， 以 及 全 部 用 户 信息 的 数据 挖掘 。 

。 Mahalo 使 用 Cassandra 作为 其 主要 的 近 实 时 数据 存储 。 

。 Facebook 还 在 使 用 Cassandra 作为 其 收 件 箱 的 索引 ， 不 过 使 用 的 是 一 个 非 开 源 
DE. 

* Digg 也 使 用 Cassandra 作为 主要 的 近 实 时 数据 存储 。 

。 Rackspace 使 用 它 进 行 云 服 务 、 监 控 和 日 志 存 储 。 

。 Reddit 使 用 它 作 为 持久 化 的 缓存 。 

。 Cloudkick 使 用 Cassandra 用 于 监控 统计 和 分 析 。 

。 Ooyala 使 用 Cassandra 存储 和 服务 近 实 时 的 视频 分 析 数 据 。 
SimpleGeo 使 用 Cassandra 作为 实时 位 置信 息 的 主要 存储 系统 。 

。 Onespot 使 用 它 作 为 部 分 主要 数据 的 存储 系统 。 








Cisco 和 Platform64 也 在 使 用 Cassandra， 而 且 Comcast 和 bee.tv 也 准备 使 用 Cassandra 
来 为 移动 设备 提供 网 上 的 个 性 化 电视 服务 。 其 实 还 有 更 多 。 最 后 要 说 的 是 ， 这 些 应 
用 都 是 真实 存在 的 ， 各 种 不 同 领域 的 公司 都 找到 了 Cassandra 的 应 用 场合 并 获得 成 
功 。 在 本 书写 作 的 时 候 ， 最 大 的 Cassandra 应 用 来 自 于 Facebook， 他 们 在 100 & & 
机 器 上 存储 了 超过 50 TB 的 数据 。 


很 多 公司 都 在 不 同 的 产品 项 目 里 评估 Cassandra， 而 由 Apache Cassandra 项 目的 主席 
Jonathan Ellis 等 人 成 立 的 公司 Riptano 也 于 2010 年 4 月 成 立 了 。 随 着 更 多 的 特性 、 




















译注 1: 根据 Facebook 的 工程 师 团队 在 2010 年 11 月 对 他 们 发 布 的 新 消息 系统 的 介绍 ， 新 消息 系统 是 基于 
HBase[ 而 非 Cassandra 的 。 
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更 好 的 工具 以 及 技术 支持 方案 的 加 入 ， 可 以 预期 会 有 更 多 的 人 加 入 使 用 Cassandra 
的 行列 。 


1.7 小 结 


本 章 我 们 介绍 了 Cassandra 的 特征 、 历 史 和 主要 特性 。 我 们 了 解 到 了 哪些 公司 使 用 
了 Cassandra 和 它们 的 使 用 目的 。 我 们 还 回顾 了 数据 库 技术 的 发 展 史 ， 以 此 可 以 从 
历史 角度 看 待 Cassandra 的 价值 。 
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第 2 章 


"77€ Cassandra 


Ming SN IUIS. 我 们 将 从 安装 Cassandra 开始 。 因 为 Cassandra 带 来 了 很 
多 新 词汇 ， 安 装 过 程 中 可 能 会 有 些 我 们 不 太 熟 悉 的 词 。 不 过 不 用 担心 ， 本 章 的 目的 
是 快速 搭建 一 个 简单 可 用 的 系统 。 先 搭 起 一 个 环境 。 之 后 我 们 再 在 这 个 基础 上 从 更 
大 的 背景 下 理解 Cassandra。 


2.1 安装 二 进 制 包 

Cassandra 可 以 从 其 官方 网 站 http://cassandra.apache.org 上 下 载 。 只 要 单 击 首页 上 
的 下 载 最 新 版 本 的 链接 就 可 以 下 到 gzip 压缩 的 tar 包 。 编 译 好 的 二 进 制 包 命 名 为 
apache-cassandra-x.x.x-bin.tar.gz， 其 中 x.x.x 是 版 本 号 。 压 缩 包 大 约 10 MB X. 


2.1.1 解压 缩 

最 简单 的 开始 方法 就 是 下 载 已 经 编译 好 的 二 进 制 包 。 你 可 以 使 用 任何 常规 的 ZIP T. 
具 来 解 开 压缩 包 。 在 Linux F, gzip 应 该 是 所 有 发 布 版 预 装 的 工具 ， 而 在 Windows 
下 ， 你 可 能 需要 一 个 WinZip 之 类 的 工具 。WinZip 是 商业 软件 ， 如 果 需 要 免费 软件 
的 话 ， 可 以 使 用 7-Zip， 这 个 工具 可 以 从 http:Wwww.7-zip.org 下 载 。 

使 用 解压 工具 。 你 可 能 需要 分 两 步 来 打开 压缩 文件 和 tar 包 ， 一 旦 得 到 了 一 个 名 为 
apache-cassandra-x.x.x 的 目录 ， 你 就 可 以 运行 Cassandra T. 


2.1.2 里面 有 什么 


解 开 tar 包 之 后 ， 你 就 可 以 看 到 Cassandra 的 二 进 制 发 布 里 面 的 各 个 目录 了 。 现 在 让 
我 们 先 来 花 点 时 间 看 看 里 面 都 有 些 什么 à 
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bin 

bin 目录 包含 了 用 于 运行 Cassandra 的 可 执行 文件 以 及 命令 行 (CLI) 客户 端 。 这 
个 目录 中 还 包含 运行 nodetoo1 的 脚本 ， 用 于 监控 集群 是 否 被 合理 配置 ， 并 进行 
各 种 管理 操作 。 在 后 面 我 们 会 深入 介绍 nodetool。 这 个 目录 还 包含 Cassandra 
的 数据 文件 SSTable 与 JSON 相互 转换 的 脚本 。 





conf 

这 个 目录 在 源码 包 里 也 位 于 这 个 位 置 ， 包 含 了 配置 Cassandra 实例 所 需 的 配置 
文件 ， 这 些 配置 文件 有 三 个 主要 功能 : 通过 storage-conf.xml 文件 ， 你 可 以 配置 
keyspace 和 列 族 ， 以 此 创建 存储 系统 ， 还 有 一 些 文件 用 于 鉴 权 相关 设置 ， 最 后 
log4j.properties 文件 是 用 来 配置 日 志 级 别 等 设置 的 。 在 第 6 章 里 ， 我 们 在 介绍 如 
何 配置 Cassandra 时 会 看 到 如 何 使 用 它们 。 


interface 

对 于 0.6 和 之 前 版 本 的 Cassandra， 这 个 目录 里 只 有 一 个 文件 一 一 cassandra.thrift。 
这 个 文件 用 于 描述 Cassandra 支持 的 远程 调用 (RPC) 客户 端 API。 接 口 使 用 
Thrift 格式 定义 ， 并 提供 了 一 个 简单 的 生成 客户 端的 方法 。 要 快速 查看 Cassandra 
所 支持 的 所 有 操作 ， 只 要 使 用 一 个 普通 文本 编辑 器 打开 这 个 文件 就 行 了 。 你 可 以 
看 到 Cassandra 通过 这 个 接口 支持 Java、C++、PHP、Ruby、Python、Perl 以 及 
C# 等 各 种 客户 端 。 





javadoc 

这 个 目录 包含 了 Java 的 JavaDoc 工具 自动 生成 的 文档 站 上 点。 注意，JavaDoc fX 
仅 是 从 Java 源码 里 的 注释 直接 生成 的 ， 并 不 是 一 个 非常 完善 的 文档 。 如 果 你 
只 希望 了 解 代码 的 结构 ， 这 可 能 还 算是 个 不 错 的 途径 。 而 且 ， 虽 然 Cassandra 
是 个 非常 优秀 的 项 目 ,， 但 代码 之 中 的 注释 却 并 不 多 ， 所 以 ， 你 可 能 会 发 现 
JavaDoc 的 帮助 非常 有 限 。 如 果 你 对 Java 比较 熟悉 ， 直 接 阅 读 class 文件 可 能 
更 有 效 一 些 。 如 果 还 是 要 阅读 JavaDoc， 那 么 就 用 浏览 器 打开 javadoc/index. 
html 文件 即 可 。 








lib 

这 个 目录 包含 Cassandra 运行 所 需 的 外 部 库 。 比 如 ， 这 里 面包 含 了 两 个 不 同 的 
JSON tB £115 E, Google collections 项 目 ， 以 及 一 些 Apache 的 公共 库 。 这 个 目 
KERA Thrift 和 Avro RPC J£, JH-F 5 Cassandra 的 交互 。 








.2 ”从 源码 编译 


Cassandra 使 用 Apache Ant 作为 编译 脚本 语言 ， 并 使 用 Ivy 插件 来 进行 依赖 关系 管理 。 
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| 第 2 章 


^a 





你 可 以 从 httpz/ant.apache.org 下 载 Ant， 只 是 要 编译 Cassandra 的 话 ， 不 需 
a Y" à 
Wa 要 单独 下 载 Ivy。 


es 




















Ivy 依赖 于 Ant， 并 且 编 译 源 码 还 需要 1.6.0. 20 以 上 版 本 的 JDK， 而 不 仅 是 JRE。 如 
果 你 看 到 Ant 缺少 tools.jar 的 话 ， 要 么 是 缺少 完整 的 JDK， 要 么 是 环境 变量 指向 了 
错误 的 路 径 。 


如 果 你 想 下 载 最 新 的 系统 ， 那 么 可 以 从 Hudson 中 获取 代码 ，Hudson 是 
心 Cassandra 使 用 的 持续 集成 工具 。 最 新 的 源 代 码 和 集成 测试 信息 位 于 http:// 


a 








hudson.zones.apache.org/hudson/job/Cassandra/, 


如 果 你 是 Git 的 忠实 用 户 ， 还 可 以 使 用 以 下 命令 来 下 载 Cassandra 源码 的 主干 分 支 


(只 读 ) : 


»git clone git://git.apache.org/cassandra.git 











a a. 这 个 工具 目前 非常 流行 ， 被 Android, Fedora, Ruby on Rails, Perl 等 项 目 
以 及 很 多 Cassandra 客户 端 〈 第 8 章 会 进一步 介绍 ) 项 目 使 用 。 如 果 你 使 
用 了 诸如 Ubuntu 这 样 的 Linux 发 布 版 ， 非 常 容易 获得 Git。 只 要 在 终端 输 
入 >apt-get install git 就 可 以 装 好 并 开始 使 用 了 。 如 果 要 进一步 了 解 ， 可 以 
访问 http://git-scm.com/, 


w^ Git 是 Linus Torvalds 开发 的 用 于 管理 Linux 内 核 开 发 的 产 代 码 管理 系统 。 
aa 
| 

















因为 Ivy 可 以 处 理 好 所 有 依赖 关系 ,一旦 你 获取 了 源 人 代码， 编译 Cassandra 就 是 一 
件 非常 容易 的 事 。 只 要 确定 你 在 源 代码 的 根 目录 ， 并 执行 anc 命令 就 行 ，ant 会 根 
据 当 前 路 径 中 的 build.xml 文件 的 内 容 执行 默认 的 编译 目标 。 后 面 的 事情 就 全 由 Ant 
和 Ivy 负责 了 。 要 运行 Ant 开始 编译 源码 ， 只 要 输入 如 下 命令 即 可 : 























>ant 


就 这 么 简单 ，Ivy 会 歼 取 所 有 必要 的 依赖 库 ，Ant 会 编译 大 约 350 个 源 文件 ， 并 执行 
测试 。 如 果 一 切 正 常 ， 你 可 以 看 到 一 条 BUILD SUCCESSFUL 消息 。 如 果 出 现 意 外 的 
话 ， 首 先 检查 你 的 各 种 路 径 设 置 是 否 正确 ， 是 否 有 所 有 需要 的 工具 的 最 新 版 本 ， 以 
及 是 否 下 载 了 一 个 稳定 版 本 的 Cassandra。 你 可 以 通过 Hudson 的 集成 测试 报告 来 查 
看 下 载 的 源 代码 是 否 可 以 正常 编译 。 




















如 果 你 希望 看 到 编译 过 程 中 的 详细 信息 ， 可 以 在 运行 Ant 的 时 候 加 上 -v 
uw a. 选项， 这 样 它 会 输出 每 一 个 操作 的 详细 信息 。 
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2.2.1 其 他 编译 目标 
要 编译 服务 器 ， 只 要 运行 上 面 的 命令 就 可 以 了 。 而 这 里 其 实 还 有 一 些 其 他 的 编译 目 
的 ， 你 或 许 也 感 兴 


* fest 
对 用 户 来 说 ， 这 可 能 是 个 最 有 用 的 目的 ， 它 会 自动 执行 所 有 单元 测试 。 你 还 可 以 
从 单元 测试 里 面 发 现 不 少 关于 如 何 和 Cassandra 交互 的 有 用 的 例子 。 


* gen-thrift-java 
这 个 目的 用 于 生成 使 用 Java 和 Cassandra 交互 的 Apache Thrift 客户 端 接口 。 


* gen-thrift-py 
这 个 目的 用 于 生成 Python 用 户 使 用 的 Thrift 客户 端 接口 。 


。 build-jar 
用 于 生成 用 来 发 布 的 Java 存档 (JAR) 文件 ， 可 以 直接 执行 >ant jar。 这 样 就 可 以 
完成 编译 过 程 ， 并 在 build 目录 生成 一 个 名 为 apache-cassandra-x.x.x.jar 的 文件 。 








2.2.2 ”使 用 Maven 编 译 

Cassandra 的 最 早 的 作者 们 似乎 并 不 怎么 关注 Maven， 所 以 早期 的 Cassandra 版 本 
里 也 没有 包含 Maven POM 文件 。 不 过 ， 由 于 越 来 越 多 的 Java 开发 者 开始 从 Ant ££ 
向 Maven， 而 且 Maven 的 IDE 工具 支持 也 日 渐 强 大 ， 如 果 你 非常 想 用 Maven 的 话 ， 
可 以 用 一 个 外 部 贡献 的 pom.xml 文件 。 


要 使 用 Maven 编译 源 代码 ， 需 要 在 «cassandra-home»/contrib/maven 目录 执行 这 条 命令 ; 





$ mvn clean install 


如 果 你 使 用 Maven 编译 遇 到 困难 的 话 ， 可 能 需要 手工 下 载 一 些 需 要 的 JAR 包 。 对 
于 0.6.3 版 本 来 说 ， 因 为 一 些 依赖 关系 ，Maven POM 文件 是 无 法 直接 使 用 的 ， 比 如 
libthrift.jar 在 Maven 仓库 中 就 不 可 用 。 

















K Cassandra 的 开发 者 很 少 使 用 Maven, PLA Maven 也 缺少 强 有 力 的 支 
持 。 也 就 是 说 ， 你 得 小 心 使 用 Maven， 因 为 Maven POM 经 党 是 不 可 用 的 。 














2.3 运行 Cassandra 
在 Cassandra 的 早期 版 本 中 ， 运 行 Cassandra 服务 器 之 前 需要 调整 使 用 Ivy 来 设置 环 
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Eu. (HELZEJTE ARCU ZR ICT —dHedETE IB ERU ETE, RRETEITRTULIR E EH ER 
接 启 动 Cassandra, 








S d. 经 在 Open JDK fll Sun JDK 上 进行 了 测试 。 你 可 以 使 用 >java-version 这 
2 条 命令 来 检查 Java 的 版 本 。 如 果 需 要 JDK 的 话 ， 可 以 从 http://java.sun.com/ 
javase/downloads 下 载 。 


d Cassandra 需要 J2SE JDK6， 最 好 是 1.6.0 20 或 是 更 新 的 版 本 。Cassandra 已 
r^ 
' 


2.3.1 在 Windows 平 台 上 运行 Cassandra 
只 要 下 载 了 二 进 制 包 或 是 下 载 了 源码 包 编 译 之 后 ， 就 可 以 运行 Cassandra 服务 器 了 。 


首先 ， 需 要 设置 JAVA HOME 环境 变量 。 要 在 Windows 7 上 设置 环境 变量 ， 需 要 单 
击 “ 开 始 ” 按 钮 ， 然 后 在 “我 的 电脑 ”上 点 右键 。 选 择 “ 高 级 系统 设置 "， 然 后 单 
击 “ 环 境 变 量 …… ”按钮 。 单 击 “ 新 建 …… ”按钮 ， 创 建 一 个 新 的 系统 变量 。 在 变 
量 的 名 称 域 输 入 JAVA_HoME。 在 变量 的 值 域 输 入 JDK 的 安装 位 置 。 可 能 是 类 似 C: N 
Program FilesUavaVjdk1.6.0 20 的 东西 。 这 里 ， 你 是 在 创建 一 个 新 的 环境 变量 ， 所 以 
需要 重新 打开 一 个 终端 窗口 才能 让 新 设置 的 环境 变量 生效 。 要 确定 环境 变量 是 否 设 
置 受 当 了 ， 在 新 的 终端 窗口 输入 >echo %JAVA HOMES$。 输 出 的 值 就 是 你 设置 的 环 


oe H. 
境 变量 。 








第 一 次 启动 服务 器 时 ，Cassandra 会 在 系统 中 添加 两 个 目录 。 第 一 个 是 Ci:\var\lib\ 
cassandra， 这 个 目录 用 于 存放 一 些 称 commitlog 的 数据 文件 。 另 一 个 是 C:\var\log\ 
cassandra， 在 这 个 目录 里 ， 日 志 会 写 到 名 为 system.log 的 文件 中 去 。 如 果 你 遇 到 什 
么 问题 ， 可 以 查看 这 些 目 录 中 的 内 容 ， 来 看 看 到 底 发 生 了 什么 。 如 果 你 在 尝试 多 个 
不 同 版 本 的 Cassandra， 并 且 不 担心 丢掉 数据 的 话 ， 可 以 直接 删除 这 些 目 录 再 像 上 次 
启动 系统 一 样 重新 启动 系统 。 








2.3.2 ”在 Linux 下 运行 Cassandra 


在 Linux 下 运行 Cassandra 和 在 Windows 下 区 别 不 大 。 首 先 确定 JAVA HOME 环 
境 变量 设置 到 1.6.0 20 或 是 更 新 版 本 的 JDK 上 。 然 后 用 gunzip 打开 gzip 压缩 的 
Cassandra 的 tar 包 。 最 后 ， 创 建 两 个 目录 用 于 存放 Cassandra 的 数据 和 日 志 ， 并 设 
置 恰当 的 权限 ， 如 下 所 示 : 








ehewitt@morpheus$ cd /home/eben/books/cassandra/dist/apache-cassandra- 
0.7.0-beta1 

ehewittemorpheus$ sudo mkdir -p /var/log/cassandra 

ehewittemorpheus$ sudo chown -R ehewitt /var/log/cassandra 

ehewittemorpheus$ sudo mkdir -p /var/lib/cassandra 
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ehewittemorpheus$ sudo chown -R ehewitt /var/lib/cassandra 


当然 ， 对 于 你 来 说 不 是 shewitt， 应 该 替换 成 你 自己 的 用 户 名 。 


2.8.8 启动 服务 器 

不 论 在 任何 操作 系统 中 ， 启 动 Cassandra 服务 器 都 要 在 终端 窗口 里 ， 进 入 到 解压 压 
缩 文件 得 到 的 <cassandra-directory>/bin 目录 中 去 ， 运 行 下 面 的 命令 来 启动 服务 器 。 
对 于 第 一 次 安装 的 系统 ， 你 应 该 看 到 差不多 如 下 的 日 志 内 容 : 








ebeneéemorpheus$ bin/cassandra -f 

INFO 13:23:22,367 DiskAccessMode 'auto' determined to be standard, 
indexAccessMode is standard 

INFO 13:23:22,475 Couldn't detect any schema definitions in local storage. 
INFO 13:23:22,476 Found table data in data directories. 

Consider using JMX to call org.apache.cassandra.service.StorageService 
.loadSchemaFromYaml(). 

INFO 13:23:22,497 Cassandra version: 0.7.0-betal 

INFO 13:23:22,497 Thrift API version: 10.0.0 

INFO 13:23:22,498 Saved Token not found. Using qgFABQw5XJMvsA471g 

INFO 13:23:22,498 Saved ClusterName not found. Using Test Cluster 

INFO 13:23:22,502 Creating new commitlog segment /var/lib/cassandra/ 
commitlog/ CommitLog-1282508602502.10g 

INFO 13:23:22,507 switching in a fresh Memtable for LocationInfo 

at CommitLogContext( file-'/var/lib/cassandra/commitlog/CommitLog- 
1282508602502.10g', position-276) 

INFO 13:23:22,510 Enqueuing flush of Memtable-LocationInfoe29857804 (178 
bytes, 4 operations) 

INFO 13:23:22,511 Writing Memtable-LocationInfo929857804(178 bytes, 4 
operations) 

INFO 13:23:22,691 Completed flushing /var/lib/cassandra/data/system/ 
LocationInfo-e-1-Data.db 

INFO 13:23:22,701 Starting up server gossip 

INFO 13:23:22,750 Binding thrift service to localhost/127.0.0.1:9160 
INFO 13:23:22,752 Using TFramedTransport with a max frame size of 
15728640 bytes. 

INFO 13:23:22,753 Listening for thrift clients... 

INFO 13:23:22,792 mx4j successfuly loaded 

HttpAdaptor version 3.0.2 started on port 8081 





-£ 参数 告诉 Cassandra 停留 在 前 台 ， 而 不 是 作为 一 个 后 台 进程 运行 ， 这 样 
服务 器 的 日 志 就 会 输出 到 标准 输出 来 ， 我 们 也 就 可 以 在 终端 窗口 看 到 这 些 








彰 息 了 ， 这 对 于 测试 来 说 非常 有 用 。 


祝贺 你 ! 你 的 Cassandra 服务 器 应 该 已 经 运行 起 来 了 ， 并 且 得 到 了 一 个 监听 9160 端 
HÉJ, A Test Cluster 的 单 节 点 Cassandra 集群 了 。 





Cassandra 开发 者 们 在 努力 工作 ， 以 保障 Cassandra 每 一 个 小 版 本 升级 和 每 
p^ ^ 一 个 主 版 本 升级 后 都 可 以 继续 读 取 原 有 的 数据 。 但 是 ， 在 版 本 升级 时 ( 即 
全， 使 是 小 版 本 的 升级 ) ， 你 仍 需要 确保 已 经 完全 提交 并 清空 所 有 commit log. 


如 果 你 有 较 早 的 Cassandra 版 本 ， 那 么 可 能 需要 现在 就 清空 这 些 数 据 目 
录 ， 这 只 要 启动 并 运行 那个 已 有 的 系统 就 可 以 了 。 如 果 你 已 经 删除 了 旧 的 
Cassandra， 并 希望 重新 从 零 开始 ， 那 么 可 以 删除 /var/lib/cassandra 和 /var/ 
log/cassandra 两 个 目录 。 























AMNI mE 
2.4 使 用 命令 行 界 面 的 客户 端 
现在 ， 你 已 经 拥有 了 一 个 运行 着 的 Cassandra 集群 了 ， 我 们 来 操作 一 下 ， 确 认 一 切 
正常 吧 。 在 Linux 下 ， 只 要 用 命令 行 就 可 以 了 。 而 在 Windows 下 ， 你 可 能 还 要 多 做 
一 点 工作 。 


在 Windows 下 ， 访 问 Cassandra 的 安装 目录 ， 并 在 这 里 打开 一 个 终端 ， 运 行 客户 端 
程序 : 


>bin\cassandra-cli 


对 于 Windows， 启 动 客户 端 时 ， 你 可 能 会 看 到 这 样 的 出 错 信 息 : 


Starting Cassandra Client 
Exception in thread "main" java.lang.NoClassDefFoundError: 
org/apache/cassandra/cli/CliMain 


这 可 能 因为 是 在 bin 目录 里 直接 启动 的 Cassandra， 这 样 ， 它 的 Java classpath 设置 并 不 
正确 ， 无 法 找到 CliMain 文件 来 启动 客户 端 。 你 需要 首先 定义 一 个 CASSANDRA HOME 
环境 变量 ， 指 向 Cassandra 所 在 的 顶级 目录 ， 也 就 是 放置 或 是 编译 Cassandra 的 目录 ， 
这 样 就 不 必 关 注 到 底 是 从 哪里 启动 的 Cassandra 了 。 


Aa 














对 于 如 何在 Windows 里 设置 环境 变量 ， 可 以 参考 2.3.1 5, 








` 
a. 
es 





要 在 Linux 下 运行 命令 行 客户 端 ， 只 要 到 Cassandra 的 安装 目录 ， 并 运行 bin 目录 里 
的 cassandra-cli MẸ: 

»bin/cassandra-cli 
Cassandra 的 客户 端 就 会 开始 工作 : 


ebenemorpheus$ bin/cassandra-cli 
Welcome to cassandra CLI. 
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Type 'help' or '?' for help. Type 'quit' or 'exit' to quit. 
[defaulteunknown] 


现在 ,你 就 拥有 了 一 个 交互 式 的 shell， 可 以 发 出 命令 了 。 


不 过 ， 还 需要 注意 的 一 点 是 ， 如 果 你 习惯 于 Oracle 的 SQL*Plus 或 类 似 的 数据 库 命 
令 行 客户 端的 话 ， 可 能 会 有 些 失 望 。Cassandra 的 命令 行 客户 端 并 不 是 一 个 全 功能 的 
客户 端 ， 它 确实 只 是 开发 用 的 。 对 于 开始 使 用 Cassandra 来 说 ， 这 也 是 个 不 错 的 途 
径 。 因 为 通过 这 个 客户 端 你 不 需要 写 很 多 代码 就 可 以 检测 环境 是 否 可 用 ， 以 及 你 与 


Cassandra 的 交互 是 否 正 常 。 


LA AINGIA A 
2.5 ”基本 命令 行 命令 
在 开始 这 入 研究 Cassandra 之 前 ， 我 们 来 笼统 看 一 下 客户 端的 API， 了 解 你 能 给 服 
务 器 送 什么 样 的 命令 。 我 们 将 看 到 如 何 使 用 基本 环境 命令 ， 以 及 如 何 交 互 来 插入 或 
读 取 数 据 。 


2.5.1 帮助 
要 在 命令 行 界面 下 获得 帮助 信息 ， 只 要 项 “?” 或 “help” 束 能够 看 到 可 用 命令 的 列 
表 ， 如 下 列 出 的 只 是 和 元 数据 与 配置 相关 的 命令 ， 关 于 查看 与 设置 值 的 其 他 命令 我 
们 将 在 后 面 介绍 。 


[defaulteKeyspacel] help 
List of all CLI commands: 











? Display this message. 
help Display this help. 
help «command» Display detailed, command-specific help. 
connect «hostname»/«port» Connect to thrift service. 
use «keyspace» [«username» 'password'] Switch to a keyspace. 
describe keyspace «keyspacename» Describe keyspace. 
exit Exit CLI. 
quit Exit CLI. 
show cluster name Display cluster name. 
show keyspaces Show list of keyspaces. 
show api version Show server API version. 
create keyspace «keyspace» [with «attl»-«valuel» [and «att2»-«value2» ...]] 
Add a new keyspace with the specified attribute and 
value(s). 


create column family «cf» [with «attl»-«valuel» [and «att2»-«value2» ...]] 
Create a new column family with the specified 
attribute and value(s). 


drop keyspace «keyspace» Delete a keyspace. 
drop column family «cf» Delete a column family. 
rename keyspace «keyspace» «keyspace new name» Rename a keyspace. 
rename column family «cf» «new name» Rename a column family. 





2.5.2 ”连接 服务 器 


这 样 局 动 客户 端 并 不 能 动 连接 到 一 个 Cassandra 服务 器 实例 。 所 以 ， 要 想 连接 到 
某 个 服务 器 还 需要 使 用 connect MS: 


eben@morpheus : ~/books/cassandra/dist/apache-cassandra-0.7.0-betal$ bin/ 
cassandra-cli 
Welcome to cassandra CLI. 


Type 'help' or '?' for help. Type 'quit' or 'exit' to quit. 
[defaulteunknown] connect localhost/9160 

Connected to: "Test Cluster" on localhost/9160 
[defaulteunknown] 


也 可 以 直接 在 启动 客户 端 时 ， 通 过 在 参数 里 指定 主机 和 端口 来 指定 连接 到 哪个 
Cassandra 服务 器 实例 : 
ebenemorpheus:-/books/cassandra/dist/apache-cassandra-0.7.0-betal$ bin/ 


cassandra-cli localhost/9160 
Welcome to cassandra CLI. 


Type 'help' or '?' for help. Type 'quit' or 'exit' to quit. 
[defaulteunknown] 








如 果 在 连接 服务 器 的 时 候 遇 到 类 似 这 样 的 出 错 信息 : 

uva. Exception connecting to localhost/9160 - java.net.Connect- 
Exception: Connection refused: connect 

请 确定 Cassandra 服务 器 实例 是 否 在 这 个 主机 和 端口 上 ， 并 且 尝 试 一 下 是 

否 可 以 ping 通 这 个 主机 。 防火 墙 也 可 能 会 阻止 连接 到 服务 器 和 上。 同时 请 检 

查 是 不 是 正在 使 用 上 面 新 的 0.7 的 语法 ， 这 个 语法 与 老 版 本 有 所 不 同 。 


























上 面 的 命令 行 显示 ， 你 连接 到 了 一 个 称 为 “Test Cluster” 的 Cassandra 服务 器 集群 。 
这 是 因为 localhost 上 的 单 节点 集群 默认 就 是 这 样 设置 的 。 








在 一 个 生产 环境 里 ， 请 确定 在 配置 文件 里 去 掉 Test Cluster 的 字样 。 





2.5.3 ”描述 环境 


在 连接 到 Test Cluster 这 个 Cassandra 服务 器 实例 之 后 ， 如 果 你 使 用 的 是 二 进 制 发 布 版 ， 
那么 应 该 已 经 设置 好 了 一 个 空 的 keyspace， 或 者 叫 deci 来 供 你 试用 了 。 


要 看 当前 正在 操作 的 集群 的 名 字 ， 输 入 : 





[defaultGunknown] show cluster name 
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Test Cluster 


要 看 集群 中 有 哪些 keyspace 可 用 ， 使 用 如 下 命令 : 


[defaulteunknown] show keyspaces 
system 


如 果 你 已 经 创建 了 自己 的 keyspace， 它 们 也 会 出 现在 这 里 。system keyspace 是 
Cassandra 系统 内 部 使 用 的 ， 我 们 不 能 在 里 面 存放 数据 。 这 样 看 的 话 ， 它 的 作用 类 似 
于 微软 的 SQL Server 里 的 master 和 temp 数据 库 。 这 个 keyspace 里 存放 的 内 容 包括 
schema 的 定义 和 运行 时 对 schema 进行 的 所 有 修改 。 利 用 这 个 keyspace， 对 schema 
的 任何 修改 都 可 以 基于 时 间 惟 的 先后 顺序 传 遍 整 个 集群 。 


要 查看 系统 使 用 的 API 版 本 ， 只 要 输入 : 


[defaultGKeyspacel] show api version 
10.0.0 


这 里 有 很 多 其 他 的 命令 可 以 尝试 。 现 在 ,我们 首先 在 数据 库 里 添加 一 些 数据 ， 再 把 
它们 取出 来 。 











2.5.4 创建 keyspace 和 列 族 


Cassandra keyspace 大 致 相当 于 关系 数据 库 里 的 一 个 数据 库 。 它 会 定义 一 个 或 多 个 列 
族 ， 列 族 大 致 可 以 对 应 于 关系 数据 库 中 的 表 。 当 我 们 不 指定 keyspace 来 启动 命令 行 
客户 端 时 ， 输 出 大 致 如 下 : 

>bin/cassandra-cli --host localhost --port 9160 

Starting Cassandra Client 


Connected to: "Test Cluster" on localhost/9160 
Welcome to cassandra CLI. 


Type 'help' or '?' for help. Type 'quit' or 'exit' to quit. 
[defaulteunknown] 











shell 提示 符 显 示 为 default@eunknown， 因 为 我 们 没有 作为 某 一 个 用 户 通过 鉴 权 
( 鉴 权 的 内 容 会 在 第 6 章 介 绍 )， 而 且 也 没 指定 keyspace。 











这 里 鉴 权 的 方式 和 MySQL 很 类 似 ， 如 果 用 过 MySQL 应 该 不 会 感到 陌生 。 
心 。 鉴 权 与 授权 的 功能 实际 在 本 书写 作 时 还 在 开发 中 。 我 们 建议 把 Cassandra 
全 集群 放 在 防火 墙 内 ， 以 确保 安全 。 








我 们 首先 创建 自己 的 keyspace， 这 样 就 能 在 里 面 写 入 数据 了 : 


[defaulteunknown] create keyspace MyKeyspace with replication factor-1 
ab67bad0-ae2c-11df-b642-e700f669bcfc 
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暂时 不 要 管 replication factor， 后 面 我 们 会 详细 探讨 这 个 设置 的 。 在 创建 了 自 
己 的 keyspace 之 后 ， 你 可 以 通过 如 下 命令 来 进入 这 个 keyspace: 





[defaulteunknown] use MyKeyspace 
Authenticated to keyspace: MyKeyspace 
[defaulteMyKeyspace] 


因为 MyKeyspace 并 不 要 求 认 证 ， 所 以 我 们 被 授权 访问 这 个 keyspace T. 
现在 可 以 在 这 个 keyspace 里 面 创 建 列 族 了 。 要 通过 命令 行 创 建 列 族 ， 可 以 使 用 如 下 


[defaulteMyKeyspace] create column family User 
991590d3-ae2e-11df-b642-e700f£669bcfc 
[defaulteMyKeyspace] 


这 样 就 在 当前 keyspace 创建 了 一 个 使 用 默认 列 族 设置 的 名 为 “User” 的 列 族 。 我 们 
可 以 使 用 命令 行 客户 端的 describe keyspace 命令 来 查看 keyspace 的 描述 信息 和 列 族 
的 定义 ， 如 下 : 








[defaulteMyKeyspace] describe keyspace MyKeyspace 
Keyspace: MyKeyspace 


Column Family Name: User 

Column Family Type: Standard 

Column Sorted By: org.apache.cassandra.db.marshal.BytesType 
flush period: null minutes 


[defaulteMyKeyspace] 





我 们 后 面 会 来 关注 Type、Sorted By 以 及 flush period 设置 。 则 开始 ， 现 在 这 
些 已 经 足够 了 。 


2.5.5 读 写 数据 

HE, REHA T keyspace 和 列 族 ， 将 向 数据 库 里 面 写 入 一 些 数据 再 读 取出 来 。 
虽然 现在 还 不 太 明 白 它 是 如 何 工作 的 ， 不 过 这 问题 不 大 。 我 们 将 在 后 面 的 章节 来 逐 
步 熟悉 Cassandra 的 数据 模型 。 现 在 ， 你 已 经 拥有 了 一 个 keyspace (数据 库 )， 其 中 
有 一 个 列 族 。 对 于 我 们 的 简单 目的 来 说 ， 直 接 把 列 族 看 做 是 一 个 多 维 有 序 映射 就 可 
以 ， 无 需 提 前 进行 更 多 设置 。 列 族 里 包含 列 ， 而 列 是 原子 级 的 数据 存储 单元 。 


要 写 入 值 ， 可 以 使 用 sec 命令 : 


[defaulteMyKeyspace] set User['ehewitt']['fname']-'Eben' 
Value inserted. 
[defaulteMyKeyspace] set User['ehewitt']['email']-'meGexample.com' 
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Value inserted. 
[defaulteMyKeyspace] 


这 里 为 键 值 enewitt 创建 了 两 个 列 ， 分 别 写 入 了 相应 的 值 。 列 的 名 字 是 £name 和 
email。 我 们 可 以 使 用 count 命令 来 确认 已 经 为 这 个 键 值 写 入 两 个 列 了 : 


[defaulteMyKeyspace] count User['ehewitt'] 
2 columns 


现在 数据 已 经 在 Cassandra 里 了 ， 让 我 们 来 把 数据 读 出 来 ， 使 用 get 命令 


[defaulteMyKeyspace] get User['ehewitt'] 

=> (column-666e616d65, value-Eben, timestamp-1282510290343000) 

=> (column-656d61696c, value-meGexample.com, timestamp-1282510313429000) 
Returned 2 results. 


可 以 使 用 aei 命令 来 删除 一 列 。 这 里 将 针对 ehewitt 的 行 键 值 (row key) 删除 
email 列 : 


[defaulteMyKeyspace] del User['ehewitt']['email'] 
column removed. 


现在 删除 整 行 来 清除 掉 我 们 留 下 的 痕迹 。 同 样 使 用 ael 命令 ， 不 过 这 次 不 指定 列 的 
AFT: 





[defaulteMyKeyspace] del User['ehewitt'] 
row removed. 


要 确定 这 行 已 经 被 删除 了 ， 可 以 再 查询 一 次 : 


[defaulteKeyspacel] get User['ehewitt'] 
Returned 0 results. 


2.6 iod 


现在 ， 你 已 经 安装 好 一 个 Cassandra 集群 并 运行 起 来 了 。 我 们 已 经 通过 命令 行 客 户 
e 了 一 些 数 据 ， 在 真正 深入 细节 之 前 ， 该 来 看 看 Cassandra WAS T 




















第 3 章 
Cassandra 的 数据 模型 





在 本 章 中 ,我们 将 尝试 理解 Cassandra 的 设计 目标 、 数 据 模型 以 及 一 些 一 般 的 行为 
特征 。 


对 于 关系 型 数据 库 的 开发 者 和 管理 员 来 说 ， 理 解 Cassandra 的 数据 模型 起 先 可 能 
不 少 困难 。 一 些 名 词 是 全 新 的 ， 比 如 keyspace， 还 有 一 些 词 可 能 有 不 同 的 含义 ， 比 
如 “ 列 ”。 如 果 你 尝试 直接 去 对 应 Dynamo 或 是 BigTable 的 文件 ， 可 能 也 容易 混 消 ， 
因为 虽然 Cassandra 是 以 它们 为 蓝本 的 ， 但 却 有 自己 的 模型 。 


所 以 ， 本 章 将 从 一 些 共 有 的 概念 入 手 ， 然 后 再 去 熟悉 那些 新 的 名 词 。 之 后 ， 我 们 会 
进行 一 些 实际 的 建 模 ， 以 便 帮助 各 位 读者 了 解 如 何 从 关系 型 数据 库 跨越 到 Cassandra 
的 世界 来 。 


3.1 关系 型 数据 模型 


在 关系 型 数据 库 中 ， 我 们 拥有 数据 库 本 身 ， 这 一 般 是 对 应 于 单个 应 用 的 最 外 层 的 容 
器 。 数 据 库 里 包含 若干 张 表 。 表 有 名 字 和 一 个 或 多 个 列 ， 每 个 列 也 有 名 字 。 当 向 表 
里 添加 数据 的 时 候 ， 要 指定 每 一 列 对 应 的 值 。 如 果 对 于 某 一 列 ， 没 有 值 相 对 应 ， 就 
要 置 空 (nul1)。 这 组 新 的 数据 项 给 表 添 加 了 一 行 ， 之 后 ， 如 果 我 们 知道 这 行 的 唯 
一 标识 (主键)， 还 可 以 读 出 这 行内 容 ， 否则 ， 就 使 用 SQL 查询 语句 来 表达 约束 条 
件 来 匹配 这 行内 容 。 如 果 和 希望 更 新 表 中 的 内 容 ， 则 既 可 以 更 新 所 有 行 也 可 以 更 新 部 
分 行 ， 更 新 的 范围 可 以 使 用 SQL 语句 中 的 where 子 句 来 选 定 。 


为 了 学 习 Cassandra， 最 好 暂时 先 把 这 些 来 自 关系 型 数据 库 的 知识 抛 在 脑 后 。 
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3.2 简介 
本 节 我 们 将 采用 自 底 向 上 的 方法 来 理解 Cassandra 的 数据 模型 。 
可 能 你 想 要 的 最 简单 的 数据 存储 机 制 就 是 数组 或 列表 了 ， 如 图 3-1 所 示 。 














3-1: 值 的 列表 


如 果 你 永久 保存 了 这 个 列表 ， 就 可 以 在 之 后 进行 查询 ， 但 可 能 需要 逐个 查看 值 的 内 
容 来 判断 这 些 值 都 表达 了 什么 含义 ， 或 者 需要 永远 将 每 一 个 值 放 在 列表 中 国定 的 地 
方 ， 之 后 通过 描述 数据 结构 的 外 部 文档 来 记录 每 个 位 置 都 是 什么 值 。 这 样 ， 你 可 能 
就 不 得 不 保存 一 些 空 的 占 位 内 容 (如 null)， 以 便 保持 列表 大 小 一 致 ， 即 使 某 些 可 选 
的 属性 的 值 并 不 存在 〈 比 如 传真 号 码 或 是 公寓 号 ) 。 总 之 ， 数 组 是 一 个 简单 有 用 的 数 
据 结构 ， 但 语义 不 够 丰富 。 


于 是 ， 考 虑 给 列表 添加 第 二 个 维度 : 值 对 应 的 名 称 。 我 们 给 每 个 元 素 一 个 名 称 ， 现 
在 有 了 一 个 映射 (map) 结构 ， 如 图 3-2 Bros. 

















E 











图 3-2:“ 名 / 值 ” 对 的 映射 


现在 可 以 知道 一 个 值 的 名 称 了 ， 这 当然 是 一 个 重大 进步 。 如 果 我 们 决定 用 这 个 映射 
来 存放 用 户 信 息 ， 那 么 列 名 应 包含 first name, last name, phone, email 等 ， 
显然 ， 这 是 一 个 更 丰富 的 数据 结构 。 


但 是 ， 我 们 建立 的 数据 结构 只 在 描述 对 象 仅 拥有 一 个 实例 的 时 候 才能 工作 ， 比 如 一 
个 人 、 用 户 、 宾 馆 或 是 一 条 消息 (Tweet)。 如 果 希 望 在 一 个 数据 结构 里 存放 多 个 对 
象 就 不 那么 容易 了 ， 但 我 们 常常 就 希望 这 么 做 。 到 目前 为 止 ， 我 们 还 不 能 创建 一 个 
统一 的 “名 / 值 ”映射 的 集合 ， 也 无 法 重复 相同 的 列 名 。 我 们 需要 的 实际 是 把 某 些 
列 值 分 成 一 组 ， 从 而 可 以 单独 地 分 组 访问 。 需 要 一 个 键 值 来 访问 一 组 列 ， 这 一 组 列 
可 以 看 做 是 一 个 集合 。 而 且 还 需要 行 。 于 是 ， 如 果 读 取 一 行 ， 就 可 以 获取 一 个 对 象 
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的 所 有 名 / 值 对 ， 或 者 获取 我 们 所 关心 的 名 称 下 的 值 。 我 们 把 每 个 拥有 某 组 列 的 集 
合 的 对 象 称 为 行 ， 每 个 行 的 唯一 标识 称 为 行 键 值 (row key). 


Cassandra 还 定义 了 一 个 列 族 的 概念 ， 用 作 逻 辑 上 的 分 组 ， 联 系 起 相似 的 数据 。 比 
如 ， 可 能 有 一 个 用 户 列 族 、 一 个 宾馆 列 族 、 一 个 地 址 短 列 族 等 。 依 照 这 个 方法 ， 一 
个 列 族 大 致 类 似 于 关系 数据 库 领 域 中 的 一 张 表 。 


把 上 面 提 到 的 这 些 概念 放 在 一 起 ， 就 有 了 Cassandra 的 基本 数据 结构 : 列 ， 也 就 是 
名 / 值 对 (客户 端 还 会 提供 一 个 最 近 一 次 更 新 的 时 间 戳 ) ， 列 族 ， 就 是 为 具有 相似 但 
不 同 列 集合 的 行 而 准备 的 容器 。 


关系 数据 库 中 ， 习 惯 使 用 字符 串 来 存储 列 名 一 一 这 是 唯一 被 允许 的 。 但 是 在 Cassandra 
里 ， 没 有 类 型 的 限制 。 行 键 值 和 列 名 都 可 以 和 关系 型 数据 库 一样 是 字符 串 ， 但 也 可 以 
是 长 整数 、UUID 或 其 他 任何 类 型 的 字 节 数组 。 所 以 ， 键 名 的 设置 就 更 丰富 了 。 


这 揭示 了 Cassandra 的 列 的 另 一 个 有 趣 特 质 ， 它们 不 必 是 简单 的 预先 设 定 的 “ 键 值 
对 ”的 关系 ， 你 不 仅 可 以 在 “ 值 ” 里 存放 有 用 数据 ， 在 “ 键 ” 里 也 同样 可 以 。 在 
Cassandra 中 创建 索引 时 常常 就 是 这 样 。 我 们 先 不 必 着 急 往 前 走 这 么 远 。 


现在 ， 我 们 不 需要 在 存储 一 个 新 元 素 时 就 为 每 列 都 存储 一 个 值 。 也 许 我 们 还 不 知道 
某 个 元 素 每 列 的 值 。 比 如 ， 有 些 人 有 第 二 个 电话 号 码 ， 而 很 多 人 没有 ， 而 且 在 一 个 
Cassandra 支持 的 在 线 表 单 中 ， 可 以 允许 有 些 域 是 可 选 的 ， 有 些 域 是 必 选 的 。 这 些 都 可 
以 。 而 且 ， 不 知道 的 值 也 不 必 存 储 一 个 nul1 来 浪费 空间 ， 我 们 根本 不 会 为 某 些 行 存 
储 那些 列 。 这 样 ， 就 有 了 如 图 3-3 的 一 个 稀 玻 、 多 维 的 数组 结构 了 。 




















3-3: 列 族 
一 个 JSON (JavaScript 对 象 标记 ) 的 例子 可 能 比 一 个 图 片 更 有 助 于 理解 : 
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Musician: ColumnFamily 1 


bootsy: RowKey 
email: bootsyepfunk.com,  ColumnName:Value 
instrument: bass ColumnName:Value 
george: RowKey 


email: georgeepfunk.com ColumnName:Value 


Band: ColumnFamily 2 
george: RowKey 
pfunk: 1968-2010 ColumnName:Value 











这 里 有 两 个 列 族 : 音乐 家 和 乐队 。 音 乐 家 列 族 有 两 行 一 一 bootsy 和 george。 这 两 行 都 
有 一 两 个 列 : boosty 有 两 列 (email 和 instrument), ifij george 只 有 一 列 。 这 对 Cassandra 
来 说 没什么 问题 。 第 二 个 列 族 是 乐队 ， 里 面 也 有 george 行 ， 并 且 有 一 个 pfunk 列 。 


Cassandra 中 的 列 实际 还 有 第 三 个 元 素 时 间 截 ， 时 间 惟 记录 了 列 上 一 次 被 更 新 的 时 
间 。 不 过 ， 时 间 惟 并 不 是 一 个 自动 的 元 数据 属性 ， 客 户 端 在 写 数据 的 时 候 必 须要 同 
时 提供 时 间 戳 的 值 。 不 能 通过 时 间 改 查询 数据 ， 时 间 惟 仅 用 于 在 服务 端 解决 冲突 。 
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那么 ， 如 果 需 要 增加 一 组 相关 的 列 该 如 何 做 ， 能 不 能 在 这 之 上 增加 一 个 新 的 维度 ? 


Cassandra 人 允许 我 们 使 用 超级 列 族 (super column family) 来 完成 这 个 任务 。 超 级 列 
族 可 以 看 做 是 映射 的 映射 。 图 3-4 所 示 的 就 是 超级 列 族 。 





超级 列 族 
超级 列 2 


— 














图 3-4: 超级 列 族 


一 个 列 族 中 的 一 行 是 一 个 名 / 值 对 的 集合 ， 而 超级 列 族 中 的 列 还 包含 有 一 组 子 列 。 
所 以 在 一 个 普通 的 列 族 里 找到 一 个 值 可 以 通过 行 键 值 和 列 名 来 找到 ， 而 在 一 个 类 型 
为 “super” 的 列 族 中 寻 址 需要 行 键 值 、 列 名 和 子 列 的 名 称 。 这 里 其 实 只 有 细微 的 差 
别 ， 超 级 列 族 仍然 包含 列 ， 只 是 每 个 列 里 拥有 子 列 轻 了 。 


这 些 就 是 自 底 向 上 看 的 Cassandra 的 数据 模型 。 现 在 有 了 基本 的 理解 ， 我 们 可 以 开 
足 马 力 上 升 到 更 高 的 层面 上 ， 以 自 顶 向 下 的 方法 来 了 解 Cassandra。 数 据 模型 这 个 话 
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题 非常 难以 理解 ， 所 以 我 们 有 必要 换 一 个 角度 来 重新 描述 这 个 结构 ， 以 便 帮 助 读 者 
更 全 面 地 理解 Cassandra 的 数据 模型 。 


3.3 ”集群 


如 果 只 运行 一 个 单 节 点 ，Cassandra 大 概 不 是 最 佳 选择 。 正 如 之 前 提 到 的 ， 
Cassandra 数据 库 系统 是 为 跨越 多 台 主 机 共同 工作 ， 对 用 户 呈 现 为 一 个 整体 的 分 布 
式 系统 设计 的 。 所 以 ，Cassandra 的 最 外 层 结构 就 是 集群 (cluster) ， 有 时 也 叫做 环 
(ring) ， 因 为 Cassandra 将 集群 中 的 布点 组 织 成 一 个 环 ， 并 依 此 来 分 配 数据 到 集群 中 
的 节点 上 。 


每 个 节点 会 存放 部 分 数据 的 一 个 副本 。 如 果 一 个 市 点 宕 机 了 ， 它 的 另 一 个 副本 可 以 
响应 查询 请 求 。P2P 协议 允许 数据 以 对 用 户 透 明 的 方式 在 节点 间 互 相 复制 ， 副 本 
因子 就 是 所 有 节点 中 存放 的 相同 数据 的 副本 数量 。 我 们 会 在 第 6 章 里 详细 讨论 这 
个 话题 。 














3.4 keyspace 


集群 是 keyspace 的 容器 ， 而 且 里 面 通常 只 有 一 个 keyspace, keyspace 是 Cassandra 
中 数据 的 最 外 层 容 器 ， 和 关系 型 数据 库 的 概念 非常 接近 。 与 关系 型 数据 库 类 似 ， 
keyspace 有 一 个 名 字 和 一 些 定义 了 整个 keyspace 范围 的 全 局 行为 的 属性 。 虽 然 人 们 常 
常 建议 ， 给 每 个 应 用 建立 一 个 单独 的 keyspace 是 个 好 主意 ， 但 实际 上 这 没有 太 多 事实 
依据 。 这 当然 是 一 个 可 用 的 方式 ， 但 是 按照 应 用 的 需要 创建 足够 的 keyspace 才 是 最 好 
的 。 可 是 注意 ， 要 是 给 一 个 应 用 创建 了 上 千 个 keyspace, XD Se Z8 $E, 
按照 选择 的 分 区 方式 ， 如 果 安 全 限制 允许 ， 可 以 将 多 个 keyspace 放 在 同一 个 集 
群 里 。 比 如 ， 如 果 应 用 名 叫 Twitter， 你 可 能 希望 集群 叫做 Twitter-Cluster, 
keyspace 叫做 Twitter。 据 我 所 知 ， 迄 今 为 止 还 没有 广 为 接 受 的 Cassandra 命名 原 
则 可 供 遵循 。 


在 Cassandra 中 ， 可 以 针对 keyspace 设置 的 基本 属性 有 如 下 几 个 。 











。 副本 因子 (Replication factor) 
简单 地 说 ， 副 本 因子 就 是 每 行 数据 会 复制 到 多 少 个 节点 上 。 如 果 副 本 因子 是 3， 
那么 每 行 数据 将 会 复制 到 环 上 的 三 个 节点 ， 复 制 过 程 对 于 客户 端 是 透明 的 。 
从 本 质 上 说 ， 副 本 因子 的 选择 决定 了 要 为 一 致 性 付出 多 少 性 能 代价 。 也 就 是 说 ， 
所 得 到 的 读 写 的 一 致 性 水 平 取决 于 副本 因子 的 设 定 。 











。 副本 放置 策略 (Replica placement strategy ) 
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副本 放置 策略 是 指数 据 的 副本 如 何 分 布 到 环 上 。Cassandra 本 身 有 多 种 可 选 的 放置 策 
上 略 ， 用 于 决定 键 值 到 节点 的 映射 方式 。 这 些 策略 包括 : SimpleStrategy (简单 策略 ， 
之 前 称 为 RackUnawareStrategy， 非 机 架 感知 策略 )、OldNetworkTopologyStrategy (IH 
网 络 拓扑 策略 ， 之 前 称 为 RackAwareStrategy， 机 架 感知 策略 ) 和 NetworkTopology- 
Strategy (网 络 拓扑 策略 ， 之 前 称 为 DatacenterShardStrategy， 数 据 中 心 分 片 策略 ) 。 





。 列 族 (Column families) 
与 数据 库 是 表 的 容器 类 似 ，keyspace 是 一 个 或 多 个 列 族 的 容器 。 列 族 就 类 似 于 关系 
型 数据 库 里 的 表 ， 是 集合 了 很 多 行 的 容器 。 每 一 行 都 有 一 些 有 序 的 列 。 列 族 的 设置 
就 呈现 了 数据 结构 ， 每 个 keyspace 都 至 少 有 一 个 列 族 ， 而 通常 会 有 多 个 列 族 。 


这 里 ， 我 提 到 副本 因子 和 副本 放置 策略 是 因为 它们 都 是 每 个 keyspace 的 设置 。 但 
是 ， 它 们 并 不 直接 影响 数据 模型 本 身 。 


虽然 一 般 不 建议 这 么 做 ， 但 可 以 为 一 个 应 用 创建 多 个 keyspace。 通 常 只 有 希望 为 不 
同 的 列 族 设 置 不 同 的 副本 因子 和 副本 放置 策略 的 时 候 ， 才 会 邯 虑 让 同一 个 应 用 使 用 
多 个 不 同 keyspace。 比 如 ， 对 于 一 些 低 优先 级 的 数据 ， 可 以 将 它们 单独 放 在 一 个 设 
有 较 低 副 本 因子 的 keyspace 当中 ， 这 样 就 可 以 减少 一 些 Cassandra 复制 这 些 数据 的 
工夫 。 但 是 这 样 或 许 增加 了 太 多 的 复杂 度 ， 有 可 能 得 不 偿 失 。 一 个 更 好 的 选择 大 概 
是 开始 只 建立 一 个 keyspace， 视 需求 再 决定 是 否 有 必要 调整 到 那个 级 别 。 


3.5” 列 族 


列 族 (column family) 是 容纳 一 组 有 序 的 行 的 容器 ， 每 行 都 包含 一 组 有 序 的 列 。 在 
关系 型 数据 库 世 界 里 ， 按 照 模型 来 建立 数据 库 的 时 候 ， 会 首先 指定 数据 库 的 名 字 
(对 应 于 keyspace) 和 表 的 名 字 〈 有 些 类 似 于 列 族 ， 但 不 要 真 的 认为 两 者 是 一 回 事 ， 
因为 事实 并 非 如 此 ) ， 然 后 定义 每 张 表 中 列 的 名 字 。 


有 几 个 不 错 的 原因 可 以 说 明白 列 族 和 关系 型 数据 库 中 的 表 实 际 相去 其 远 。 首 先 ， 
Cassandra 被 认为 是 无 schema 的 ， 因 为 尽管 定义 了 列 族 ， 但 没 定 义 列 ， 你 可 以 随 
意 在 任意 列 族 中 添加 任意 的 列 ， 只 要 需要 。 其 次 ， 列 族 有 两 个 属性 ， 名称 和 比较 器 
(comparator)。 比 较 器 是 在 查询 数据 时 返回 的 列 的 排序 方式 ， 可 以 根据 long, byte, 
UTF8 或 其 他 排序 方式 进行 。 


在 关系 型 数据 库 中 ， 表 在 磁盘 上 如 何 排序 通常 对 用 户 是 透明 的 ， 而 且 很 少 有 人 会 建 
议 根 据 RDBMS 如 何在 磁盘 上 存储 表 来 进行 数据 建 模 的 。 这 是 另 一 个 需要 时 刻 注 意 
的 列 族 与 表 的 区 别 。 因 为 每 个 列 族 在 磁盘 上 都 存储 为 不 同 的 文件 ， 所 以 把 相关 的 列 
放 在 同一 个 列 族 中 十 分 重要 。 
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列 族 与 关系 型 数据 库 的 表 的 另 一 个 不 同 在 于 ， 关 系 型 数据 库 仅 定义 了 列 ， 而 用 户 提 
供 了 值 ， 这 就 是 行 。 但 在 Cassandra 中 ， 一 个 列 族 可 以 放 很 多 个 列 ， 其 至 可 以 定义 
为 超级 列 族 。 使 用 超级 列 族 的 好 处 是 允许 出 套 定义 。 


标准 的 列 族 类 型 是 Standard， 这 是 默认 情况 ， 而 对 于 超级 列 族 ， 它 的 类 型 被 设置 为 
Super。 


同一 个 Cassandra 列 族 中 写 数据 的 时 候 ， 要 指定 一 个 或 多 个 列 的 值 。 这 些 值 都 通过 
称 为 行 的 唯一 标识 指定 。 行 有 唯一 的 键 值 ， 称 为 行 键 值 (row key)， 类 似 于 关系 型 
数据 库 表 中 的 主键 ， 可 以 唯一 标识 一 行 。 所 以 ， 说 Cassandra 是 面向 列 的 并 不 确切 ， 
如 果 你 把 行 理 解 为 是 列 的 容器 倒是 更 有 利于 对 这 一 数据 模型 的 理解 。 这 也 是 为 什么 
一 些 人 认为 Cassandra 的 列 族 类 似 于 四 维 哈 希 : 























[Keyspace] [ColumnFamily] [Key] [Column] 


我 们 可 以 用 一 种 类 似 JSON 的 方式 来 表示 Hotel 列 族 ， 如 下 : 


Hotel { 

key: AZC 043 { name: Cambria Suites Hayden, phone: 480-444-4444, 
address: 400 N. Hayden Rd., city: Scottsdale, state: AZ, zip: 
85255) 

key: AZS 011 ( name: Clarion Scottsdale Peak, phone: 480-333-3333, 
address: 3000 N. Scottsdale Rd, city: Scottsdale, state: AZ, zip: 
85255) 

key: CAS 021 ( name: W Hotel, phone: 415-222-2222, 
address: 181 3rd Street, city: San Francisco, state: CA, zip: 
94103) 

key: NYN 042 ( name: Waldorf Hotel, phone: 212-555-5555, 
address: 301 Park Ave, city: New York, state: NY, zip: 10019) 





A f REEL, KERZ EIAI RISE, DERRE, 4&4 FAH— 
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在 这 个 例子 中 ， 行 键 值 是 Hotel 列 族 的 唯一 主键 ， 其 中 的 列 包 括 名 称 、 电 话 、 地 址 、 
城市 、 州 和 邮政 编码 。 虽 然 所 有 这 些 行 恰巧 都 定义 了 这 些 相 同 的 列 ， 但 实际 上 你 可 以 
让 一 行 有 四 列 ， 而 另 一 行 有 400 列 ， 并 且 两 者 没有 任何 交 破 ， 这 都 没什么 问题 。 


同一 行 的 所 有 数据 必须 存放 在 集群 中 的 同一 台 机 器 上 ， 这 是 Cassandra 的 
uNa. 多 副本 设计 的 核心 要 求 。 这 一 限制 的 原因 在 于 每 行 都 有 一 个 关联 的 行 键 
值 ， 这 个 键 值 决定 了 放置 数据 副本 的 位 置 。 更 进一步 ， 每 列 的 大 小 不 能 超 
过 2 GB。 在 设计 数据 模型 的 时 候 ， 请 时 刻 注 意 这 些 限制 。 
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我 们 可 以 在 命令 行 客户 端 用 如 下 方法 查询 列 族 : 





cassandra» get Hotelier.Hotel['NYN 042'] 

-» (column-zip, value-10019, timestamp-3894166157031651) 

column-state, value-NY, timestamp-3894166157031651) 

column-phone, value-212-555-5555, timestamp-3894166157031651) 
column-name, value-The Waldorf-Astoria, timestamp-3894166157031651) 
column-city, value=New York, timestamp-3894166157031651) 
(column-address, value-301 Park Ave, timestamp-3894166157031651) 
Returned 6 results. 


结果 显示 ， 我 们 有 一 家 在 纽约 州 纽约 市 的 酒店 ， 但 因为 
条 结果 ， 对 应 于 这 个 列 族 里 这 行 的 六 个 列 。 注 意 ， 尽 管 
以 有 不 同 数 量 的 列 。 
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结果 是 面向 列 的 ， 所 以 有 六 
这 行 有 六 个 列 ， 但 其 他 行 可 





列 族 选项 
你 还 可 以 为 每 个 列 族 定义 如 下 一 些 附加 的 参数 。 
* keys cached 


每 个 SSTable 中 缓存 的 位 置 数量 信息 。 这 里 E A 
值 的 数量 ， 同 时 列 族 中 行 的 位 置 按照 最 近 最 少 用 (LRU) 的 方式 缓存 在 内 存 之 中 。 


* rows cached 


缓存 进 内 存 中 的 整 行 内 容 的 数量 ， 包 括 每 个 行 键 值 对 应 的 所 有 名 值 对 的 列表 。 





* comment 


这 就 是 个 标准 的 注释 信息 ， 帮 你 记 住 列 族 定义 中 的 重要 信息 。 


* read repair chance 
一 个 介 于 0 和 1 之 间 的 值 。 当 执行 查询 操作 而 没有 指定 读 时 检验 要 求 的 一 致 副本 数 
n usi mi Tu n 
读 修复 操作 的 概率 。 当 读 操作 比 写 操作 多 很 多 时 ， 你 可 能 会 希望 这 个 概率 低 一 些 。 


* preload row cache 

指定 是 否 在 服务 器 启动 时 预 读 一 部 分 行 缓存 。 
这 里 我 简化 了 一 下 这 些 定义 ， 实 际 上 这 些 主要 是 配置 信息 和 服务 器 行为 ， 与 数据 模 
型 关系 不 大 。 第 6 章 还 会 更 详细 地 介绍 这 些 内 容 。 





3.6 列 
列 (column) 是 Cassandra 数据 模型 中 的 最 基本 数据 结构 单元 。 列 是 一 个 由 名 称 、 





值 和 时 钟 构 成 的 三 元 组 ， 这 个 时 钟 可 以 看 做 一 个 时 间 惟 。 再 次 强调 ， 虽 然 在 关系 型 
数据 库 中 ， 我 们 非常 熟悉 列 这 个 名 词 ， 但 如 果 你 觉得 Cassandra 和 关系 型 数据 库 里 
的 列 是 一 样 的 ， 就 大 错 特 错 了 。 首 先 ， 在 关系 型 数据 库 中 ， 你 需要 通过 预先 定义 所 
有 列 的 名 字 来 指定 表 的 结构 ， 而 在 稍 后 写 的 时 候 ， 则 只 要 根据 预先 定义 好 的 数据 结 
构 提供 值 就 可 以 了 。 

















然而 ， 在 Cassandra 之 中 不 需要 预先 定义 列 ， 只 要 在 keyspace 里 定义 列 族 ， 之 后 就 
可 以 开始 写 数据 了 。 这 是 因为 Cassandra 之 中 所 有 列 的 名 字 都 是 由 客户 端 提供 的 。 
这 可 以 让 应 用 在 使 用 数据 时 灵活 得 多 ， 也 允许 数据 模型 随 着 时 间 推 移 来 循序 浙 进 地 


改变 o 


Cassandra 的 时 钟 是 在 0.7 版 本 引入 的 ,但 今后 前 途 未 下 。 在 0.7 版 本 以 
Aa 前 ， 它 叫做 时 间 惟 ， 就 是 一 个 Java 的 长 整 型 数 。 现 在 修改 后 支持 向 量 时 
钟 (vector clock)， 这 是 一 种 分 布 式 系统 中 的 冲突 解决 方法 ， 用 于 Amazon 
Dynamo 当中 。 这 就 是 为 什么 列 的 三 元 组 中 最 后 一 个 既是 时 间 惟 ， 又 是 时 
钟 了 。 向 量 时 钟 最 终 可 能 会 成 为 Cassandra 0.7 的 一 部 分 ， 也 可 能 不 会 ， 尚 
未 最 终 确定 ， 本 书写 作 时 还 是 Beta 版 。' 























名 称 和 值 的 数据 类 型 是 Java 的 字 节 数组 ， 内 容 经 和 常 是 字符 串 。 因 为 名 称 和 值 是 
二 进 制 类 型 的 ， 所 以 它们 可 以 是 任意 长 度 的 。 时 钟 的 接口 类 型 是 org. apache. 
cassandra.db.IClock’, 但 0.7 版 本 仍然 后 癌 兼 容 之 前 的 时 间 惟 。 列 的 数据 结构 
如 图 3-5 所 示 。 








Column 


name: byte[] value: byte[] clock : IClock 











3-5. 列 的 数据 结构 


Na 
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Cassandra 0.7 引入 了 一 个 可 选 的 生存 时 间 (TTL)， 人 允许 列 在 创建 之 后 的 一 
Wa. 段 时 间 后 过 期 。 这 可 能 会 非常 有 用 。 
ASN 




















这 是 一 个 列 的 例子 ， 清 晰 起 见 ， 使 用 JSON 格式 给 出 : 
{ 


"name": "email", 





译注 1: 最 终 发 布 的 0.7 并 不 包含 向 量 时 钟 ， 该 方案 已 经 被 最 终 放弃 (Cassandra-580) ， 在 下 一 个 版 本 中 ， 
会 包含 一 个 新 的 冲突 解决 方案 (Cassandra-1072) 。 
译注 2: 这 一 新 加 入 的 类 型 在 0.7 发 布 前 被 撤回 了 。 





Ei 
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"value: "meGexample.com", 
"timestamp": 1274654183103300 


) 


在 这 个 例子 中 ， 列 的 名 称 是 email， 更 精确 地 说 ， 名 称 属 性 的 值 是 email。 回 忆 一 
TF, 一 个 列 族 可 以 有 多 个 键 值 〈 或 行 键 值 )， 其 他 的 行 可 能 也 有 这 个 列 。 这 就 是 为 什 
么 从 关系 型 模型 转换 到 Cassandra 的 模型 很 困难 了 : 我 们 总 是 在 想 ， 关 系 型 数据 库 
的 每 行 都 有 相同 的 列 。 但 在 Cassandra 里 ， 每 个 列 族 有 很 多 行 ， 每 个 行 可 以 有 相同 
的 ， 也 可 以 有 不 同 的 列 的 集合 。 


在 服务 器 端 ， 列 是 不 可 变 的 ， 以 防止 多 线程 问题 。Cassandra 中 ， 列 定义 于 org. 
apache.cassandqra.db.IColumn 接口 ， 它 允许 进行 很 多 操作 ， 包 括 以 字 节 数组 类 
型 获取 值 ， 或 是 作为 超级 列 族 ， 以 collection<IColumn> 类 型 返回 子 列 ， 以 及 查 
找 最 近 改 动 时 间 等 。 


在 关系 型 数据 库 中 ， 所 有 的 行 都 存储 在 一 起 。 早 期 版 本 的 Cassandra 并 非 如 此 ， 但 
0.6 版 本 以 后 的 Cassandra 中 ， 同 一 个 列 族 的 行 也 都 在 磁盘 上 存储 在 一 起 。 














Ha 


d Cassandra 不 支持 join。 如果 你 定义 了 一 个 数据 模型 ， 发 现 需要 使 用 join， 
AS 
L] 





那 要 么 不 得 不 在 客户 端 进行 ， 要么 创建 一 个 反 范 式 化 辅助 列 族 ， 用 于 存放 
join 的 结果 。 这 对 于 Cassandra 的 用 户 来 说 非常 普遍 。 在 客户 端 进行 join 
的 情况 非常 少 ， 相 反 ， 你 真正 需要 的 是 复制 ( 反 范式 化 ) 数据 。 








Fb 二 


3.601 宽 行 与 窄 行 

在 为 传统 的 关系 型 数据 库 设计 表 的 时 候 ， 通 常 是 在 处 理 条 目 ， 或 者 是 在 处 理 一 个 描 
述 特定 名 词 (如 宾馆 、 用 户 、 产 品 等 ) 的 属性 集 。 不 会 过 多 考虑 行 本 身 的 尺寸 ， 因 
为 一 旦 决定 了 要 在 行 里 放 什 么 ， 尺 寸 的 问题 就 没 的 商量 。 但 是 ， 在 使 用 Cassandra 
时 ， 确 实 需要 决定 行 的 尺寸 ， 它 们 可 宽 可 窄 ， 依 赖 于 行 里 的 列 数 。 











宽 行 意味 着 行 有 很 多 很 多 列 (可 能 包含 上 万 其 至 上 百 万 列 )。 经 常会 有 一 些 行 有 很 多 
列 。 相 反 情 况 下 ， 可 能 会 类 似 关系 模型 ， 可 以 定义 很 少 的 列 ， 但 会 有 很 多 不 同 的 行 ， 


这 就 是 罕 行 模型 。 








宽 行 通常 容纳 自动 生成 的 名 字 ， 如 UUID 或 时 间 戳 ， 用 于 存储 一 个 列表 。 比 如 一 个 监 
控 程 序 ， 你 可 以 用 一 行 来 存放 一 个 小 时 的 时 间 上 请， 使 用 修订 的 时 间 改 作为 行 键 值 ， 用 
列 来 存储 这 个 时 间 段 内 访问 应 用 的 TP 地 址 。 这 样 ， 每 小 时 会 创建 一 个 新 的 行 键 值 。 











罕 行 比较 类 似 传统 的 RDBMS 行 ， 每 行 包含 了 类 似 的 列 的 名 字 。 与 RDBMS 行 的 区 
别 在 于 ， 所 有 的 列 实际 都 是 可 选 的 。 
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宽 行 与 罕 行 的 另 一 个 区 别 是 ， 通 常 只 有 宽 行 才 会 考虑 列 名 的 排序 问题 。 下 节 就 讨论 
pei 
问题。 


3.6.2 ” 列 的 排序 

列 的 定义 之 中 有 另外 的 一 个 元 素 。 在 Cassandra 中 ， 在 结果 返回 给 客户 端的 时 候 ， 可 
以 指定 列 的 名 字 如 何 进 行 比较 和 排序 。 列 通过 列 族 中 定义 的 “Compare With” 类 型 
来 排序 ， 可 以 从 如 下 类 型 中 选择 : AsciiType. BytesType. LexicalUUIDType. 
IntegerType. LongType,. TimeUUIDType 和 UTF8Type. 


* AsciiType 
直接 通过 比较 字 节 进行 排序 ， 每 个 输入 都 需要 验证 是 否 符合 US-ASCII 编码 。 
US-ASCII 是 按照 英文 字母 表 的 顺序 进行 编码 的 。ASCI 定义 了 128 个 字符 ， 其 
中 94 个 是 可 打印 的 。 


* BytesType 
IXXESAABUHETIE. EDBRUAEPYCOD. TORTRTEOGOHUPNAGESTIPAX A. DL 
BytesType 作为 默认 排序 方法 的 一 个 原因 是 ， 对 于 大 部 分 类 型 (包括 UTF-8 和 
ASCII) 来 说 ， 按 照 字 贡 排序 都 是 正确 的 。 


* LexicalUUIDType 


一 个 16 F (128 位 ) 的 全 局 唯一 标识 (UUID), ， 进 行 字 节 的 排序 。 


* LongType 


按照 8 字 市 (64 位 ) 的 长 整 型 数值 进行 排序 。 


* IntegerType 
这 是 0.7 引入 的 ， 比 长 整 型 更 快 ， 允 许 使 用 比 LongType 的 64 位 更 多 或 更 少 的 
位 数 。 

* TimeUUIDType 
使 用 16 字 市 (128 位 ) 时 间 惟 进行 排序 。 有 五 个 通用 的 时 间 惟 UUID 生成 方法 。 
Cassandra 使 用 的 是 第 一 种 ， 这 是 一 种 用 计算 机 的 MAC 地 址 和 从 公历 纪年 开始 
的 以 100 纳 秒 为 单位 的 时 间 值 生成 的 编号 。 


* UTF8Type 
UTF-8 字符 编码 的 字符 串 。 看 起 来 很 适合 作为 默认 排序 类 型 ， 因 为 这 会 让 使 
用 XML 和 其 他 需要 公共 编码 格式 的 数据 交换 方式 的 程序 员 感 到 很 舒服 ， 但 在 
Cassandra 中 ， 除 非 你 需要 验证 数据 ， 否 则 不 要 使 用 UTF8Type。 
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* Custom 
如 果 愿 意 ， 你 可 以 创建 自己 的 排序 算法 。 和 Cassandra 中 的 很 多 东西 一 样 ， 这 也 
是 方便 易 用 的 ， 你 需要 做 的 就 是 扩展 org.apache.cassandra.db.marshal. 
AbstractType,. 并 指定 自己 的 类 名 。 


列 名 的 存储 是 按照 compare with 的 值 来 排序 的 ， 行 则 按照 分 区 器 定义 的 顺序 排序 存 
储 的 〈 比 如 使 用 RandomPartitioner， 就 是 随机 顺序 的 ) 。 我 们 会 在 第 6 章 里 介绍 。 


在 Cassandra 之 中 是 无 法 像 关 系 型 数据 库 那 样 按照 值 来 排序 的 。 虽 然 这 看 起 来 是 个 
很 奇怪 的 限制 ， 但 这 是 因为 Cassandra 必须 按照 列 名 来 排序 ， 以 便 能 从 一 个 很 宽 的 
行 里 高 效 取 出 一 列 ， 而 无 需 把 每 列 都 读 入 内 存 。 性 能 是 Cassandra 的 重要 卖点 ， 而 
实时 排序 非常 影响 性 能 。 











» oa 
四 列 排 序 是 可 控 的 ， 但 键 值 排 序 不 是 ， 行 键 值 总 是 按照 字 节 序 来 排序 的 。 
aa 
uN 
"s 





3.7 超级 列 

超级 列 (super column) 是 一 种 特殊 的 列 。 两 种 列 都 是 名 / 值 对 ， 但 普通 列 的 值 是 字 
节 数 组 ， 而 超级 列 的 值 是 一 个 子 列 的 映射 。 超 级 列 不 能 存储 其 他 超级 列 的 映射 。 也 
就 是 说 ， 超 级 列 仅 允许 使 用 一 层 ， 但 是 它 并 不 限制 列 的 数量 。 


超级 列 的 基本 数据 结构 包含 它 的 名 字 和 它 存储 的 列 ， 它 的 名 字 和 普通 的 列 一 样 ， 是 


FHAA ( 见 图 3-6)。 它 存储 的 列 保存 为 一 个 映射 ， 键 值 是 列 的 名 字 ， 而 值 是 那 
些 列 。 


























| SuperColumn | 











: name: byte[] | cols : Map«byte[], IColum? | 





3-6; 超级 列 的 基本 结构 


每 个 列 族 在 磁盘 上 都 存储 在 自己 单独 的 文件 中 。 所 以 ， 要 优化 Cassandra 的 性 能 ， 
将 经 常 一 起 查询 的 内 容 保存 在 同一 个 列 族 非常 重要 ， 用 超级 列 可 以 帮助 你 更 容易 地 
做 到 这 点 。 


SuperColumn 类 既 实 现 了 Icolumn 类 ， 也 实现 了 Icolumncontainer 类 ， 两 者 都 
位 于 org.apache.cassandra.db 包 内 。Cassandra 进行 远程 操作 所 使 用 的 底层 RPC 
序列 化 机 制 是 Thrift API。 因 为 Thrift API 不 能 标记 继承 关系 ， 所 以 ， 有 时 API 会 表示 
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为 ColumnOrSupercolumn 类 型 ， 当 数据 结构 使 用 这 个 类 型 表示 时 ， 你 需要 了 解 外 层 
的 列 族 类 型 是 Super 还 是 Standard. 


P E 























有 趣 的 事实 : 超级 列 是 Facebook 给 Google 的 Bigtable 数据 模型 增加 的 更 
A 
uva. 新 之 一 。 


i 
e 





这 里 我 们 看 到 了 一 些 更 丰富 的 数据 模型 。 当 使 用 之 前 看 到 的 普通 列 时 ，Cassandra 看 
起 来 像 是 一 个 四 维 哈 希 表 。 但 当 引 入 超级 列 时 ， 它 变 成 了 一 个 五 维 哈 希 : 


[Keyspace] [ColumnFamily] [Key] [SuperColumn] [SubColumn] 


要 使 用 超级 列 ， 就 需要 定义 列 族 类 型 为 super。 然后 ， 和 用 普通 列 一 样 ， 仍 然 使 用 
行 键 值 ， 但 这 个 行 键 值 指向 的 是 一 个 普通 列 的 列表 或 是 映射 的 名 字 了 ， 这 里 的 普通 
列 有 时 也 叫做 子 列 。 

这 里 有 一 个 名 为 PointofInterest 的 超级 列 族 定义 作为 例子 。 在 酒店 行业 中 ， 兴 


趣 点 (point of interest) 是 酒店 附近 旅客 可 能 乐于 造访 的 地 方 ， 比 如 公园 、 博 物 馆 、 
动物 园 或 旅游 景点 。 





PointOfInterest (SCF) 
SCkey: Cambria Suites Hayden 


( 


key: Phoenix Zoo 


( 


phone: 480-555-9999, 
desc: They have animals here. 
); 
key: Spring Training 
{ 
phone: 623-333-3333, 
desc: Fun for baseball fans. 


), // Cambria 行 结束 
SCkey: (UTF8) Waldorf-Astoria 


{ 
key: Central Park 
desc: Walk around. It's pretty. 
}， 
key: Empire State Building 
{ 
phone: 212-777-7777, 
desc: Great view from the 102nd floor. 
} 
} 
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PointOfInterest 超级 列 族 有 两 个 超级 列 ， 每 个 对 应 于 一 个 不 同 的 酒店 (Cambria 
Suites Hayden 和 Waldorf=Astoria) ， 行 键 值 是 不 同 的 兴趣 点 的 名 字 ， 比 如 Phoenix 
Zoo 或 是 Central Park。 每 行 都 有 一 些 列 作为 描述 (desc 列 ) ， 有 些 行 有 电话 号 码 ， 
而 有 些 没有 。 这 和 关系 型 数据 库 的 表 不 同 ， 关 系 型 数据 库 的 表 里 每 行 结构 都 是 一 样 
的 ， 而 列 族 和 超级 列 里 仅仅 是 一 组 类 似 的 记录 而 已 。 


使 用 命令 行 ， 我 们 可 以 查询 超级 列 族 : 


cassandra» get PointOfInterest['Central Park']['The Waldorf-Astoria'] 
['desc'] => (column-desc, value-Walk around in the park. 
It's pretty., timestamp -1281301988847) 


这 个 查询 是 说 ， 在 PointofInterest 列 族 (类 型 是 super) 中 ,使 用 行 键 值 


"Central Park”， 对 于 超级 列 “Waldorf=Astoria”"， 取 “desc” 列 的 值 ， 也 就 是 取 这 
个 兴趣 点 的 文字 描述 。 





组 合 键 
使 用 超级 列 进行 建 模 的 时 候 ， 需 要 考虑 一 个 重要 的 问题 : Cassandra 不 对 子 列 进行 索 
引 ， 所 以 ， 当 加 载 一 个 超级 列 进入 内 存 的 时 候 ， 所 有 子 列 都 会 被 载 入 。 





Na 


X 这 个 问题 由 Twitter 的 负责 人 Ryan King 发 现 ， 可 能 会 在 将 来 的 版 本 中 解 
心 , 决 。 但 这 个 改动 要 牵扯 到 底层 存储 文件 《SSTable) ， 还 尚未 完成 。 


es 














现在 你 可 以 使 用 一 个 自己 设置 的 组 合 键 绕 过 这 个 问题 。 组 合 键 看 起 来 就 像 -useria: 


lastupdate>。 


这 些 都 是 在 建 模 时 考虑 的 问题 ， 当 你 进入 到 实战 阶段 的 时 候 会 回来 检查 这 些 问题 。 
不 过 ， 如 果 数 据 模型 将 来 可 能 会 有 上 千 个 子 列 ， 那 么 你 可 能 就 应 该 采用 其 他 什么 方 
法 ， 而 不 是 超级 列 了 。 和 替代 方法 之 一 就 是 组 合 键 。 与 使 用 超级 列 里 的 子 列 不 同 ， 组 
合 键 使 用 普通 列 族 里 的 普通 列 ， 只 是 在 键 的 名 字 里 加 入 一 个 自 定义 的 分 隔 符 ， 在 客 
户 端 取出 的 时 候 分 析 这 个 键 值 就 可 以 了 。 


这 是 一 个 组 合 键 的 例子 ， 这 个 例子 还 用 在 了 Cassandra 具体 化 视图 设计 模式 里 ， 同 
时 也 使 用 了 一 种 我 称 之 为 无 值 列 的 Cassandra 常用 设计 模式 : 





HotelByCity (CF) Key: city:state 
key: Phoenix:AZ {AZC 043: -, AZS O11: -} 
key: San Francisco:CA (CAS 021: -} 
key: New York:NY {NYN 042: -] 





这 里 发 生 了 三 件 事 情 。 首 先 ， 我 们 在 外 部 定义 了 一 个 称 为 Hotel 的 列 族 ， 但 还 可 以 
再 创建 一 个 叫做 HotelBycity 的 列 族 ， 存 放 酒 店 信息 的 反 范 式 化 数据 。 我 们 以 不 
同 的 方式 重复 保存 了 同样 的 信息 ， 这 和 RDBMS 里 的 视图 非常 类 似 ， 因 为 它 允 许 我 
们 更 快 和 更 直接 地 进行 查询 。 其 次 ， 当 要 通过 城市 来 查询 酒店 时 (因为 很 多 客户 都 
是 通过 城市 来 搜索 酒店 的 ) ， 可 以 创建 一 个 表 来 定义 新 的 行 键 值 去 搜索 ， 但 是 ， 不 同 
的 州 有 很 多 同名 的 城市 〈 想 想 Springfield)*， 所 以 我 们 不 能 直接 使 用 城市 的 名 字 作 
为 行 键 值 ， 应 该 加 上 州 的 名 字 。 

















再 后 ， 我 们 使 用 另 一 个 称 为 无 值 列 (valueless column) 的 模式 。 我 们 需要 知道 的 只 
是 城市 里 有 哪些 酒店 ， 不 需要 反 范 式 化 更 多 的 东西 了 了。 所以， 这些 列 的 名 字 就 是 它 
们 的 值 ， 而 不 需要 对 应 的 值 了 。 这 样 ， 在 插入 列 的 时 候 ， 只 需要 保存 一 个 空 的 字 节 
数组 作为 值 就 可 以 了 。 





3.8 Cassandra 与 RDBMS 的 设计 差别 
Cassandra 的 模型 和 查询 方式 与 RDBMS 有 很 多 的 不 同 ， 记 住 这 些 差 异 非 常 重要 。 


3.8.1 没有 查询 语言 

SQL 是 关系 型 数据 库 的 标准 查询 语言 ，Cassandra 却 没有 查询 语言 。 不 过 Cassandra 
确实 也 有 自己 的 RPC 序列 化 机 制 ，Thrift。 通 过 Thrift API， 用 户 可 以 访问 其 中 的 
数据 。 





3.8.2 没有 引用 完整 性 

Cassandra 没有 3 引用 完整 性 的 概念 ， 因 而 没有 join 的 概念 。 在 关系 型 数据 库 中 ， 你 
可 以 在 一 个 表 中 指定 一 个 外 部 键 值 ， 以 此 引用 另 一 个 表 中 记录 的 主键 。 但 是 ， 
Cassandra 并 没有 提供 这 个 功能 。 存 储 其 他 表 中 的 相关 ID 是 一 个 通用 需求 ， 这 仍然 
是 被 支持 的 ， 但 Cassandra 里 没有 级 联 删除 这 样 的 概念 。 











3.8.3 第 二 索引 
二 索引 确实 是 一 个 有 用 的 功能 ， 比 如 你 需要 找到 具有 基 个 属性 的 酒店 的 唯一 
系 型 数据 库 里 ， 可 能 这 么 查询 : 


SELECT hotelID FROM Hotel WHERE name = 'Clarion Midtown'; 





译注 3: 美国 伊利 诺 伊 州 首府 ， 另 在 俄 玄 俄 州 也 有 同名 城市 。 
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当 你 知道 酒店 的 名 字 却 不 知道 ID. 的 时 候 ， 肯 定 想 这 么 查询 这 个 酒店 。 关 系 型 数据 库 
如 果 接 到 这 个 查询 ， 会 进行 一 个 全 表 扫 描 ， 检 查 每 行 的 name 列 ， 查 找 所 需要 的 名 
字 。 如 果 表 很 大 ， 这 种 查询 可 能 会 很 慢 。 对 这 种 情况 ， 关 系 型 数据 库 的 解决 方案 就 是 
为 这 列 建 一 个 索引 ， 相 当 于 这 部 分 数据 的 一 个 副本 ， 来 帮助 更 快 地 检索 数据 。 因 为 
HotelID 已 经 是 一 个 主键 约束 了 ， 主 键 会 自动 进行 索引 ， 也 就 是 主 索 引 ， 所 以 ， 对 
name 列 建立 的 索引 自然 就 是 第 二 索引 ， 目 前 Cassandra 仍然 不 支持 第 二 索引 。” 


要 在 Cassandra 中 做 到 同样 的 事情 ， 需 要 创建 另 一 个 列 族 来 存储 查询 信息 。 你 可 以 
创建 一 个 列 族 来 存储 酒店 名 ， 并 将 它们 映射 到 酒店 的 ID。 第 二 列 族 实 际 上 起 到 一 个 
显 式 的 第 二 索引 的 作用 。 











Ya 
A 





x 第 二 索引 目前 正在 被 加 入 到 Cassandra 0.7 之 中 来 ， 允 许 为 列 值 建立 索引 。 
Wa. 所 以 ， 如 果 你 希望 找到 所 有 居住 在 指定 城市 的 用 户 ， 第 二 论 引 的 支持 将 会 
Do 让 你 不 必 费 力 手工 建立 第 二 索引 列 族 了 。 

















3.8.4 ”排序 成 为 一 种 设计 决策 

在 RDBMS 中 ， 可 以 在 查询 中 使 用 oRDER BY 来 轻松 改变 返回 记录 的 顺序 。 上 默认 
的 排序 方法 确实 是 不 可 配置 的 ， 默认 情况 下 ， 记 录 按 照 它们 写 入 的 顺序 被 读 出 。 如 
有 果 和 希望 改变 顺序 ， 只 要 改变 查询 语句 即 可 ， 而 且 可 以 对 任意 一 组 列 进行 排序 。 但 在 
Cassandra 之 中 ， 排 序 就 不 同 了 ， 它 变 成 了 一 个 设计 决策 。 列 族 的 定义 中 包含 一 个 
CompareWith 配置 元 素 ， 这 个 配置 指定 了 行 在 读 出 的 时 候 按 照 什么 方式 排序 ， 它 在 
查询 的 时 候 是 无 法 重新 配置 的 。 


RDBMS 限制 你 只 能 基于 存储 在 列 中 的 数据 类 型 来 进行 排序 ， 但 Cassandra 存储 的 数 
据 是 字 节 数组 ， 所 以 这 种 用 指定 数据 类 型 排序 的 方法 是 行 不 通 的 。 不 过 ， 你 能 做 的 
是 把 列 当 做 几 种 可 排序 的 类 型 之 一 (ASCII, LONG. integer. TimestampUUID, 
字典 排序 等 ) 。 如 果 需 要 ， 你 还 可 以 使 用 自己 实现 的 比较 器 来 进行 排序 。 








此 外 ，Cassandra 里 没有 SQL 里 的 ORDER BY 和 GROUP BY 语句 。 有 一 个 查询 的 
类 型 称 为 sliceRange， 在 第 4 章 里 会 介绍 到 ， 它 类 似 于 ORDER BY， 因 为 它 允 许 
翻转 。 


3.85 RER 
在 关系 型 数据 库 设计 中 ， 我 们 经 常 强调 范式 化 的 重要 性 。 但 是 当 使 用 Cassandra 时 ， 
这 就 不 是 一 个 优点 了 ， 因 为 只 有 当 数 据 模型 是 反 范 式 化 的 时 候 ， 它 的 性 能 才 是 最 好 


译注 4: 如 下 文 提 到 ，Cassandra 0.7 加 入 了 对 第 二 索引 的 支持 ， 该 版 本 在 翻译 时 已 经 发 布 了 。 
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的 。 实 际 上 ， 很 多 公司 最 终 都 会 将 关系 型 数据 库 反 范式 化 ， 这 主要 有 两 个 原因 。 其 
一 是 性 能 原因 ， 当 他 们 在 其 多 年 积累 的 海量 有 价值 的 数据 上 进行 大 量 的 join 操作 的 
时 候 ， 无 法 得 到 所 需 的 性 能 ， 于 是 就 按照 已 知 的 查询 内 容 来 反 范 式 化 数据 库 以 优化 
查询 。 这 种 方法 最 终 可 以 工作 ,但 和 关系 型 数据 库 的 设计 初 囊 相悖 ， 最 终 引 发 的 问 
题 就 是 ， 在 这 种 条 件 下 ， 使 用 关系 型 数据 库 是 否 还 是 最 佳 手 段 。 


关系 型 数据 库 进 行 反 范 式 化 的 第 二 个 原因 是 业务 文档 结构 有 时 需要 留存 。 也 就 是 说 ， 
你 有 一 个 外 围 表 ， 引 用 了 很 多 的 外 部 表 ， 表 的 数据 可 能 会 随时 间 发 生变 化 ， 但 你 也 
需要 以 快照 形式 保存 外 围 文档 的 历史 。 常 见 的 一 个 例子 是 收 款 信息 。 你 已 经 有 客户 
和 产品 表 了 ， 而 且 认 为 可 以 在 收 款 信息 里 引用 这 些 表 。 但 是 实际 不 应 该 这 么 做 ， 因 
为 客户 和 价格 信息 都 可 能 发 生变 化 ， 那 时 你 就 会 丢失 收 款 信息 的 完整 性 了 ， 因 为 这 
些 表 的 变动 似乎 在 收 款 时 也 发 生 了 ， 这 可 能 会 影响 到 审计 、 报 告 ， 其 至 古 违 法 的 ， 
还 可 能 引发 其 他 问题 。 


在 关系 型 数据 库 里 ， 反 范式 化 会 破坏 Codd 的 范式 ， 我 们 需要 尽力 避免 。 但 在 
Cassandra 中 ， 反 范式 化 却 正 好 合乎 规则 。 它 在 数据 模型 很 简单 时 并 不 必要 ， 但 也 不 
需要 害怕 它 。 


重点 在 于 ， 首 先 对 数据 建 模 、 然 后 再 写 查询 的 方法 不 再 适用 了 。Cassandra 中 ， 应 该 
先 定义 好 查询 ， 并 围绕 查询 来 组 织 数据 。 芳 虑 一 下 应 用 使 用 的 最 基本 的 查询 路 径 ， 
之 后 根据 查询 路 径 来 构建 所 需要 的 列 族 就 可 以 了 。 


批评 者 们 认为 这 是 个 非常 严重 的 问题 。 不 过 在 设计 数据 库 的 时 候 能 够 考虑 应 用 如 何 
查询 也 并 非 没 有 道理 ， 实 际 上 ， 一 般 在 关系 型 数据 库 里 也 是 这 么 做 的 。 如 果 不 能 正 
确 预 期 查询 方式 ， 那 么 不 论 是 在 Cassandra 里 还 是 在 关系 型 数据 库 里 ， 都 会 遇 到 问 
题 。 当 然 ， 查 询 方式 可 能 会 随 着 时 间 推 移 而 改变 ， 那 么 就 不 得 不 更 新 数据 了 。 不 过 
这 和 在 关系 型 数据 库 里 定义 表 时 犯错 或 需要 新 的 附加 表 也 没什么 区 别 。 





























^os 
TS 有 一 篇 关于 Cloudkick 如 何 使 用 Cassandra 存储 性 能 监控 指标 数据 的 文章 ， 
AS 可 以 在 这 里 阅读 : https://www.cloudkick.com/blog/2010/mar/02/4_months_ 
4 


with_cassandra , 








3.9 设计 模式 
有 一 些 人 们 通常 使 用 Cassandra 的 方法 ， 可 以 归纳 为 设计 模式 。 我 给 这 些 模式 命名 
为 : 具体 化 视图 、 无 值 列 和 聚合 键 。 








Cassandra 的 数据 模型 | 55 


3.9.1 具体 化 视图 
创建 一 个 第 二 索引 来 对 应 附加 查询 的 方法 非常 常见 。 因 为 没有 SQL 的 WHERE 子 句 ， 
就 只 能 通过 将 数据 写 到 对 应 于 应 用 查询 方式 的 第 二 列 族 的 方法 来 达到 这 一 效果 。 


比如 有 一 个 user 列 族 ， 现 在 你 希望 通过 所 在 城市 来 搜索 用 户 ， 那 么 就 可 以 创建 一 
个 称 为 Usercity 的 第 二 列 族 ， 以 城市 为 键 值 (而 非 以 用 户 为 键 值 ) 存放 用 户 数据 ， 
它 的 列 以 居住 在 这 个 城市 的 用 户 的 名 字 来 命名 。 这 个 反 范 式 化 技术 将 会 加 快 查询 ， 
这 就 是 一 个 围绕 查询 方式 设计 数据 模型 的 例子 (而 非 反 向 进行 )。 这 种 使 用 方式 在 
Cassandra 中 非常 常见 。 当 希望 通过 城市 查询 用 户 的 时 候 ， 只 要 查询 Usercity 列 族 
就 可 以 了 ， 而 不 用 去 查询 User 列 族 ， 然 后 跨 过 一 个 可 能 很 大 的 数据 集 ， 在 客户 端 
上 做 很 多 琐碎 的 工作 。 


注意 ， 在 这 个 语 境 里 ， 有 具体 化 是 指 在 第 二 列 族 里 存放 所 有 应 答 查询 时 需要 的 原始 列 
族 数据 的 一 份 完 整 副 本 ， 这 样 就 无 需 访问 原始 列 族 了 。 如 果 因 为 在 第 二 列 族 里 只 存 
放 了 所 需要 的 名 字 还 要 进行 第 二 次 查询 ， 相 当 于 第 二 列 族 里 只 存放 外 部 键 值 ， 那 就 
是 一 个 第 二 索引 了 。 








在 0.7 版 本 里 ，Cassandra 原生 支持 了 第 二 索引 。 








3.9.2 无 值 列 


现在 ， 我 们 在 User/Usercity 例子 上 继续 前 进 。 因 为 在 user 列 族 中 存放 了 3 引用 信 
息 ， 这 就 出 现 两 个 问题 : 首先， 需要 唯一 是 完备 的 键 值 ， 以 此 来 达到 引用 一 致 性 ， 
其 次 ，Usercity 列 族 中 的 列 实际 不 需要 值 。 如 果 你 有 一 个 行 键 值 Boise， 那 么 列 的 
名 字 可 以 是 这 个 城市 里 的 所 有 用 户 名 字 。 因 为 引用 的 数据 来 自 于 user 列 族 ， 所 以 
这 些 列 自己 就 不 需要 存储 什么 值 了 ， 你 只 把 它 用 做 一 个 列表 ， 至 于 列表 中 其 他 相关 
的 附加 信息 ， 都 可 以 从 被 引用 的 列 族 中 获取 。 


3.9.9 RS 

当 使 用 无 值 列 模式 时 ， 可 能 还 希望 同时 使 用 聚合 键 模式 。 这 个 模式 把 两 个 标量 值 
以 一 个 分 隔 符 连 在 一 起 来 创建 一 个 聚合 。 现 在 继续 扩展 我 们 的 例子 。 城 市 的 名 字 
常常 不 具有 唯一 性 ， 美 国 的 很 多 州都 有 叫 Springfield 的 城市 ， 得 克 萨 斯 州 和 田 纳 
西 州 也 都 有 叫 巴 黎 的 城市 。 所 以 ， 如 果 把 州 的 名 字 和 城市 的 名 字 融 合 到 一 起 创建 一 
个 聚合 键 就 好 多 了 ， 可 以 用 在 具体 化 视图 之 中 。 这 些 键 值 可 能 会 像 : TX:Paris 和 
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TN:Paris 这 样 。 在 传统 上 ,很 多 Cassandra 用 户 都 使 用 冒号 作为 分 隔 符 ， 不 过 使 用 
管道 符 或 是 其 他 的 没有 歧义 的 字符 都 可 以 。 


3.10 ”需要 记 住 的 几 件 事 

在 尝试 从 关系 型 的 思维 模式 向 Cassandra 的 数据 模型 转变 的 时 候 ， 有 几 件 需要 铭记 
在 心 的 事情 。 我 不 得 不 说 : 如 果 你 曾经 长 期 使 用 关系 型 数据 库 ， 那 么 这 个 转变 并 不 
容易 。 这 里 有 两 点 提示 。 





。 从 查询 开始 。 首 先 要 问 应 用 需要 什么 ， 围 绕 应 用 的 需要 进行 建 模 ， 而 非 像 过 去 在 关 
系 型 世界 里 一 样 ， 对 数据 本 身 进 行 建 模 。 有 些 聪明 人 告诉 我 ， 随 着 业务 发 展 ， 有 新 
查询 的 时 候 ， 这 种 方法 会 让 Cassandra 用 户 们 遇 到 极 大 的 麻烦 。 有 道理 ， 但 对 此 我 
要 反问 一 句 ， 为 什么 要 如 此 死板 地 定义 数据 类 型 ， 他 们 的 查询 并 没有 这 么 严格 的 要 
求 啊 。 

。 你 必须 为 每 个 查询 提供 一 个 时 间 惟 〈 或 时 钟 )， 需 要 一 个 策略 来 同步 多 个 客户 端 。 
Cassandra 会 使 用 时 间 惟 来 判断 哪个 是 最 新 写 入 的 值 ， 这 非常 重要 。 一 个 好 的 策略 
是 使 用 网 络 时 间 协 议 (NTP) 服务 器 。 这 里 ， 也 有 一 些 聪明 人 问 我 ， 为 什么 不 让 服 
务 器 自己 管理 时 钟 ? 我 的 回答 是 ， 这 是 一 个 对 称 分 布 式 数据 库 ， 服 务 端 实 际 有 同样 
的 问题 。 








3.11 小结 


本 章 ， 我 们 循序 渐进 地 讲解 了 Cassandra 的 数据 模型 ， 包 括 keyspace、 列 族 、 列 以 
及 超级 列 等 概念 。 我 们 还 了 解 了 一 些 RDBMS 与 Cassandra 的 不 同 之 处 。 
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第 4 章 


应 用 实例 





本 章 我 们 来 创建 一 个 完整 的 实例 ， 这 样 就 可 以 看 到 如 何 把 所 有 东西 放 在 一 起 。 我 们 
将 使 用 各 个 API 来 看 看 如 何 插入 数据 ， 进 行 批量 更 新 ， 并 在 列 族 和 超级 列 族 中 搜 
8. 


在 这 个 例子 中 ， 我 们 希望 使 用 足够 复杂 的 东西 ， 来 展示 不 同 的 数据 结构 和 基本 
的 API 操作 ， 但 又 不 太 过 复杂 让 你 陷于 细 枝 末节 。 为 了 从 数据 库 里 得 到 足够 的 
数据 来 让 搜索 正常 工作 (通过 找到 所 需要 的 内 容 、 过 滤 不 需要 的 内 容 )， 预 装 入 
数据 库 的 内 容 里 会 有 一 些 元 余 。 同 时 ， 我 希望 例子 建立 在 一 个 大 家 都 熟悉 的 领 
hk. 这 样 大 家 能 够 察 焦 在 如 何 使 用 Cassandra 工作 上 ， 而 不 是 琢磨 这 个 应 用 是 
怎么 回 事 。 























PE 
s 本 章 中 的 代码 在 0.7 beta 1 版 本 中 测试 通过 。 当 读者 使 用 其 他 版 本 时 ， 可 能 
p^ 4, 会 由 于 API 的 变动 ， 需 要 部 分 的 调整， 














4.4 数据 模型 设计 

开始 构建 一 个 使 用 关系 型 数据 库 的 数据 驱动 新 应 用 时 ， 你 可 能 会 首先 对 应 用 领域 
进行 建 模 ， 构 造 一 系列 属性 正 交 的 表 ， 并 用 外 部 键 引 用 其 他 表 里 的 相关 数据 。 现 
在 ， 我 们 已 经 明白 Cassandra 是 如 何 存储 数据 的 了 ， 那 么 就 从 一 个 在 关系 模型 里 
很 好 理解 的 小 的 领域 模型 开始 ， 然 后 将 它 从 关系 模型 映射 到 Cassandra 的 分 布 式 


哈 希 模型 。 


简单 地 说 ， 关 系 型 建 模 就 是 从 一 个 概念 域 开 始 ， 然 后 在 表 中 表达 出 该 域 中 的 名 词 。 
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然后 分 配 主键 和 外 部 键 来 对 关系 进行 建 模 。 当 遇 到 多 对 多 的 关系 时 ， 就 需要 创建 联 
合 表 来 表达 这 些 键 值 。 联 合 表 在 真实 世界 中 并 不 存在 ， 它 们 是 在 关系 模型 工作 时 无 
法 避免 的 副作用 。 当 所 有 的 表 都 排 布 好 之 后 ， 就 可 以 开始 写 查 询 了 ， 通 过 键 值 定 义 
的 关系 将 分 散 的 数据 聚拢 到 一 起 。 在 关系 型 世界 之 中 ， 查 询 是 非常 次 要 的 东西 。 关 
系 模型 假设 ， 只 要 正确 地 建立 了 表 ， 总 能 获取 到 所 需要 的 数据 ， 即 使 这 是 以 使 用 很 
多 复杂 的 子 查 询 或 是 join 语句 为 代价 的 。 


相反 ，Cassandra 中 ， 不 是 从 数据 模型 开始 的 ， 而 要 从 查询 模型 开始 。 




















在 这 个 例子 里 ， 我 们 使 用 一 个 易于 理解 、 和 每 个 人 都 有 关 的 领域 一 一 允许 客人 进行 
预定 的 酒店 。 


我 们 的 概念 域 包 括 酒 店 、 入 住 的 客人 、 每 个 酒店 房间 的 集合 以 及 预定 房间 的 记录 ， 
也 就 是 某 个 客人 在 某 个 房间 呆 的 一 段 时 间 ( 称 为 停留 时 间 )。 酒 店 一 般 都 会 保留 一 个 
兴趣 点 的 集合 ， 包 括 公园 、 博 物 馆 、 购 物 场 所 、 古 迹 或 者 位 于 宾馆 附近 的 某 些 地 方 ， 
游客 可 能 会 在 停留 期 间 前 去 休闲 。 宾 馆 和 兴趣 点 都 需要 维护 地 理 信息 ， 这 样 可 以 在 
地 图 上 查找 ， 或 是 计算 距离 。 

















显然 ， 在 真实 世界 里 要 考虑 的 事情 多 得 多 ， 也 复杂 得 多 。 比 如 ， 酒 店 的 房 

a. 费 总 是 在 不 断 变 化 的 ， 计 算 房 费 也 要 考虑 各 种 不 同 费用 情况 。 这 里 ， 我 们 

"NO 的 定义 会 足够 复杂 ， 让 例子 足够 有 趣 ， 也 能 触及 到 关键 点 上 ， 不 过 也 要 保 
持 简 单 ， 将 精力 集中 在 学 习 Cassandra 上 。 





























现在 来 看 看 如 何 设计 使 用 Cassandra 的 应 用 。 首 先 要 确定 查询 。 我 们 希望 做 如 下 这 


些 事情 : 


。 在 指定 区 域 查找 酒店 ， 
。 查询 指定 酒店 的 信息 ， 如 名 称 和 位 置 ， 

查找 指定 酒店 附近 的 兴趣 点 ， 

。 查询 指定 时 间 范 围 的 可 用 房间 ， 

。 查找 房间 的 房 费 和 生活 设施 ， 

* 通过 输入 客户 信息 来 预定 选 定 的 房间 。 

4.2 酒店 应 用 的 关系 型 数据 库 设 计 

如 图 4-1 所 示 ， 我 们 可 以 用 一 个 关系 型 数据 库 模型 来 构建 这 个 简单 的 酒店 预定 系统 。 
这 个 关系 型 模型 包含 两 张 联合 表 ， 以 解决 酒店 到 兴趣 点 和 房间 到 生活 设施 之 间 的 多 
对 多 关系 。 





























Hotel 


HotellD. 
Name 
Phone 
Address 
City 
State 
Tip 


PointOflnterest 


POIID 
Name 
Description 


Room 


RoomID 
HotellD 
RoomNumber 
Rate 


HotelToPOI 


HotellD 
POIID 





Reservation 
ILLUM Guest 


GuestlD 
RoomlD 
StartDate 
EndDate 


GuestlD 
Name 
Email 


RoomToAmenity Amenity 


RoomlD AmenitylD 
AmenitylD Name 











4.3 


物理 模型 的 逻辑 数据 模型 。 


图 4-1: 基于 RDBMS 的 简单 酒店 搜索 系统 


酒店 应 用 的 Cassandra 设 计 


实现 这 个 应 用 的 方法 可 能 不 止 一 种 ， 图 





4-2 中 ， 我 们 给 出 的 是 一 种 使 用 Cassandra 








««RowKeyz fhotellD 
-name 

-phone 

-address 

十 City 

-state 

-zip 





<<RowKey>>#phone 
+fname 

十 Iname 

十 email 





«CF» Hotel 


«CF» HotelByCity 


<<RowKey>#city:state:hotellD 


-hotel1 
-hotel2 





««SuperColumnNam 
««RowKeyz --date 
十 kk: «unspecified 





<<RowKey>>#resID 
-hotellD 

FroomID 

-phone 

-name 

-arrive 

-depart 

-rate 

-ccNum 





tqq: «unspecified» = 14 


««SuperColumnName- fthotellD 
«RowKeyz» #poiName 

十 desC 

十 Phone 


e>>#hotellD | | «SuperColumnName-- fhotellD 
««RowKeyz #roomID 

=22 +num 

+type 

+rate 

十 Coffee 

+ty 

+hottub 


<<SCF>œPointOfinterest 








4-2: 使 用 Cassandra 模型 的 酒店 搜索 
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在 Cassandra 里 ， 我 们 将 完成 和 之 前 的 关系 型 模型 设计 中 完全 相同 的 功能 。 我 们 直 
接 把 Hotel、Guest 这 几 张 表 转 成 列 族 。 其 他 的 表 ， 如 Pointofinterest. 5G 
式 化 为 一 个 超级 列 族 。 在 关系 型 模型 里 ， 你 可 以 用 SQL 通过 所 在 的 城市 来 进行 查 
找 。 因 为 Cassandra 里 没有 SQL ， 我 们 需要 创建 HotelBycity 列 族 来 作为 索引 。 





^a 


* 这 里 ， 我 使 用 了 书 名 号 来 标记 类 型 ，<<cF>> 表示 列 族 ，<<ScF>> 表示 超 
aa T 
uN ` 级 列 族 。 


(SA 





我 们 把 房间 和 设施 都 放 到 了 Room 列 族 之 中 ， 类 型 (type) mE (rate) 列 分 别 存 
储 相 应 的 内 容 ， 其 他 如 热 水 浴缸 (hot tub) 等 ， 如 果 有 相应 列 名 就 表示 存在 相应 的 


设施 ， 否 则 这 列 就 是 空 的 。 


4.4 酒店 应 用 代码 


在 本 节 ， 我 们 会 从 头 到 尾 展示 一 遍 代码 ， 来 介绍 如 何 实现 上 述 设计 。 这 可 以 将 很 多 
不 同 的 API 功能 的 用 法 展示 出 来 。 














这 个 示例 应 用 的 目的 就 在 于 展示 Cassandra 之 中 可 以 用 上 的 不 同 思路 。 
SS — 这 并 不 是 从 关系 型 设计 迁移 到 Cassandra 模型 上 的 唯一 方法 。 有 很 多 底 
层 的 工作 是 使 用 Thrift API 进行 的 。 但 Cassandra (可 能 ) 正 从 Thrift 
向 Avro 进行 迁移 ， 所 以 尽管 基本 思路 没 问 题 ， 但 在 实际 应 用 中 可 能 计 
不 能 按照 这 个 例子 这 么 做 。 在 第 8 章 中 ， 我 们 介绍 了 很 多 可 用 的 第 三 方 
Cassandra 客户 端 ， 可 以 依照 你 自己 的 应 用 开发 语言 和 其 他 需要 ， 来 选择 
合适 的 客户 端 。 



































创建 应 用 可 以 分 为 这 么 儿 步 。 


(1) 构建 数据 库 的 结构 。 

(2) 在 数据 库 中 装载 酒店 和 兴趣 点 的 数据 。 酒 店 的 数据 存储 在 标准 的 列 族 中 ， 兴 趣 点 
的 数据 则 存储 在 超级 列 族 中 。 

(3) 给 定 城市 ， 搜 索 一 组 酒店 的 列表 。 这 会 使 用 第 二 索引 。 

(4) 选择 搜索 结果 中 的 一 个 酒店 ， 搜 索 酒店 附近 的 兴趣 点 。 

(5) 接 下 来 ， 通 过 在 Reservation 列 族 插入 数据 来 预定 酒店 房间 的 工作 应 该 是 水 到 
渠 成 了 ， 留 给 读者 来 完成 。 


从 篇 幅 上 ， 我 们 无 法 实现 一 个 完整 的 应 用 ， 但 我 们 将 会 完整 介绍 主要 的 部 分 ， 完 成 
全 部 实现 的 工作 就 是 写 一 些 类 似 的 代码 而 已 。 
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4.4.1 创建 数据 库 


第 一 步 是 定义 schema。 本 例 中 ， 我 们 将 使 用 YAML 来 定义 schema， 并 载 和 定义， 
当然 也 可 以 使 用 客户 端 代码 来 进行 定义 。 


YAML 文件 定义 了 主要 的 keyspace 和 列 族 ， 如 例 4-1 所 示 。 


例 4-1: cassandra.yaml 中 的 schema 定义 


keyspaces: 





- name: Hotelier 
replica placement strategy: org.apache.cassandra.locator.Rack- 
UnawareStrategy replication factor: 1 
column families: 
- name: Hotel 
compare with: UTF8Type 





- name: HotelByCity 
compare with: UTF8Type 











- name: Guest 
compare with: BytesType 


- name: Reservation 
compare with: TimeUUIDType 


- name: PointOfInterest 
column type: Super 
compare with: UTF8Type 
compare subcolumns with: UTF8Type 


- name: Room 
column type: Super 
compare with: BytesType 
compare subcolumns with: BytesType 


- name: RoomAvailability 
column type: Super 
compare with: BytesType 
compare subcolumns with: BytesType 








这 个 定义 给 出 了 运行 这 个 例子 所 需 的 所 有 列 族 ， 而 且 志 AA 
并 未 用 到 ， 因 为 这 些 是 用 来 完成 RDBMS 设计 一 样 的 功能 


加 载 schema 


Æ YAML 里 定义 好 schema 之 后 ， 需 要 将 它们 装载 到 Cassandra 中 。 要 进行 装载 ， 首 
先 打 开 一 个 控制 台 ， 运 行 JDK 提供 的 jconsole 工具 ， 使 用 JMX 连接 到 Cassandras Z 
后 执行 1oadSchemaFromvaML 操作 ， 这 是 org.apache.cassandra.service. 
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StorageService MBean 的 一 部 分 。 现 在 Cassandra 已 经 知道 schema 了 ， 就 可 以 开 
始 使 用 Cassandra 了 。 你 也 可 以 直接 使 用 API 来 创建 keyspace 和 列 族 。 


4.4.2 ”数据 结构 

我 们 的 应 用 需要 一 些 标准 的 数据 结构 来 做 为 转换 对 象 。 这 些 并 不 是 非常 有 趣 ， 但 确 
是 保持 条 理性 所 需要 的 。 我 们 将 使 用 一 个 Hotel 数据 结构 来 保存 所 有 有 关 酒 店 的 信 
息 ， 如 例 4-2 所 示 。 


例 4-2: Hotel.java 


package com.cassandraguide.hotel; 





/ / 数据 传输 对 象 

public class Hotel { 
public String id; 
public String name; 
public String phone; 
public String address; 
public String city; 
public String state; 
public String zip; 


) 
这 个 结构 就 是 用 来 保存 相应 的 列 信息 ， 以 方便 应 用 使 用 。 
我 们 还 有 一 个 Por 数据 结构 ， 用 于 保存 兴趣 点 的 信息 ， 如 例 4-3 所 示 。 


例 4-3: POLjava 


package com.cassandraguide.hotel; 





/ / 兴趣 点 的 数据 传输 用 对 象 
public class POI { 
public String name; 
public String desc; 
public String phone; 


} 
还 有 一 个 constants 类 ， 把 常用 的 字符 串 放 在 一 起 ， 易 于 修改 ， 如 例 4-4 所 示 。 


例 4-4: Constants.java 





package com.cassandraguide.hotel; 
import org.apache.cassandra.thrift.ConsistencyLevel; 
public class Constants { 


public static final String CAMBRIA NAME - "Cambria Suites Hayden"; 
public static final String CLARION NAME- "Clarion Scottsdale Peak"; 





64 | 第 4 章 


public static final String W NAME = "The W SF"; 
public static final String WALDORF NAME - "The Waldorf-Astoria"; 


public static final String UTF8 - "UTF8"; 

public static final String KEYSPACE - "Hotelier"; 

public static final ConsistencyLevel CL - ConsistencyLevel.ONE; 
public static final String HOST - "localhost"; 

public static final int PORT - 9160; 


) 


把 常用 的 字符 串 保存 在 一 起 会 让 代码 更 加 干净 整洁 ， 而 且 你 也 可 以 方便 地 修改 这 些 
字符 串 ， 来 适应 应 用 环境 。 


4.4.3 ”进行 连接 
为 了 方便 ， 也 为 了 省 去 大 量 看 枯燥 无 味 的 代码 的 时 间 ， 我 们 把 连接 管理 的 代码 放 到 
一 个 类 里 面 ， 叫 做 connector， 如 例 4-5 所 示 。 


例 4-5: 一 个 客户 端 连 接 辅助 类 ，Connector.java 


package com.cassandraguide.hotel; 





E 





import static com.cassandraguide.hotel.Constants.KEYSPACIl 


import org.apache.cassandra.thrift.Cassandra; 

import org.apache.cassandra.thrift.InvalidRequestException; 
import org.apache.thrift.TException; 

import org.apache.thrift.protocol.TBinaryProtocol; 

import org.apache.thrift.protocol.TProtocol; 

import org.apache.thrift.transport.TFramedTransport; 

import org.apache.thrift.transport.TSocket; 

import org.apache.thrift.transport.TTransport; 

import org.apache.thrift.transport.TTransportException; 

















// 简单 的 辅助 类 ， 用 于 封装 连接 代码 ， 减 少 重复 输入 


public class Connector { 








TTransport tr = new TSocket("localhost", 9160); 











// 返回 一 个 到 keyspace 的 新 连接 
public Cassandra.Client connect() throws TTransportException, 
TException, InvalidRequestException ( 





TFramedTransport tf - new TFramedTransport (tr); 
TProtocol proto = new TBinaryProtocol (tf); 
Cassandra.Client client - new Cassandra.Client (proto); 
tr.open(); 

client.set keyspace (KEYSPACE); 

return client; 





public void close() { 
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tr.close(); 


当 需 要 执行 数据 库 操作 时 ， 可 以 使 用 这 个 类 来 打开 一 个 连接 ， 当 操作 完成 时 也 可 以 
使 用 这 个 类 来 关闭 连接 。 


4.4.4” 预 装填 数据 库 


例 4-6 所 示 的 Prepopulate 类 ， 进 行 大 批量 的 insert fll batch mutate 操作 ， 
将 供用 户 查 询 的 酒店 和 兴趣 点 的 信息 预 装 入 到 数据 库 当 中 。 


例 4-6: Prepopulate.java 


package com.cassandraguide.hotel; 


import static com.cassandraguide.hotel.Constants.CAMBRIA NAME; 
import static com.cassandraguide.hotel.Constants.CL; 
import static com.cassandraguide.hotel.Constants.CLARION NAME; 
import static com.cassandraguide.hotel.Constants.UTF8; 

import static com.cassandraguide.hotel.Constants.WALDORF NAME; 
import static com.cassandraguide.hotel.Constants.W NAME; 





import java.io.UnsupportedEncodingException; 
import java.util.ArrayList; 

import java.util.HashMap; 

import java.util.List; 

import java.util.Map; 


import org.apache.cassandra.thrift.Cassandra; 

import org.apache.cassandra.thrift.Clock; 

import org.apache.cassandra.thrift.Column; 

import org.apache.cassandra.thrift.ColumnOrSuperColumn; 
import org.apache.cassandra.thrift.ColumnParent; 

import org.apache.cassandra.thrift.ColumnPath; 

import org.apache.cassandra.thrift.Mutation; 

import org.apache.cassandra.thrift.SuperColumn; 

import org.apache.log4j.Logger; 














/* * 
* 装载 数据 库 的 初始 信息 
* 装填 列 族 和 超级 列 族 ， 包 括 酒店 、 兴 趣 点 和 索引 数据 
* 展示 如 何 使 用 列 族 和 超级 列 族 的 batch_mutate 和 insert 操作 
* 为 节省 空间 ， 省 略 了 代码 中 的 所 有 异常 相关 操作 
*/ 
public class Prepopulate { 





private static final Logger LOG = Logger.getLogger (Prepopulate. 
class); 


private Cassandra.Client client; 
private Connector connector; 











// 在 构造 器 中 打开 连接 ， 这 样 就 不 必 重 复 打开 连接 了 
public Prepopulate() throws Exception { 
connector = new Connector(); 














client - connector.connect(); 

} 

void prepopulate() throws Exception { 
/ / 预 装载 酒店 数据 库 
insertAllHotels(); 








/ / 添加 酒店 的 索引 ， 方 便 查 询 


insertByCityIndexes(); 














/ /. 预 装载 兴趣 点 数据 库 


insertAllPointsOfInterest(); 





connector.close(); 


} 
// 添加 通过 城市 查找 酒店 的 索引 


public void insertByCityIndexes() throws Exception { 




















String scottsdaleKey = "Scottsdale:AZ"; 
String sfKey - "San Francisco:CA"; 
String newYorkKey - "New York:NY"; 


ScottsdaleKey, CAMBRIA NAME); 
ScottsdaleKey, CLARION NAME); 
sfKey, W NAME); 

newYorkKey, WALDORF NAME); 


insertByCityIndex 
insertByCityIndex 
insertByCityIndex 
insertByCityIndex 


} 
// 使 用 无 值 列 模式 


private void insertByCityIndex(String rowKey, String hotelName) 
throws Exception ( 


Clock clock - new Clock(System.nanoTime()); 


Column nameCol = new Column(hotelName.getBytes(UTF8), 
new byte[0], clock); 


ColumnOrSuperColumn nameCosc - new ColumnOrSuperColumn(); 
nameCosc.column - nameCol; 


Mutation nameMut - new Mutation(); 
nameMut.column or supercolumn = nameCoso; 


/ / V & batch 
Map«String, Map«String, List«Mutation»»» mutationMap = 
new HashMap«String, Map«String, List«Mutation»»»(); 


Map«String, List«Mutation»» muts = 

new HashMap«String, List«Mutation»»(); 
List«Mutation» cols = new ArrayList«Mutation»(); 
cols.add(nameMut); 
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String columnFamily - "HotelByCity"; 
muts.put(columnFamily, cols); 





/ / 外 层 映 射 的 键 值 是 行 键 值 
层 映 射 的 键 值 是 列 族 名 


mutationMap.put(rowKey, muts); 





// 创建 列 的 描述 


ColumnPath cp = new ColumnPath(columnFamily); 
cp.setColumn (hotelName.getBytes (UTF8)) ; 





ColumnParent parent - new ColumnParent (columnFamily); 

// 这 里 ， 列 名 就 是 它 的 内 容 本 身 (所 以 值 是 空 的 ) 

Column col = new Column(hotelName.getBytes (UTF8), new byte[0], 
clock); 














client.insert(rowKey.getBytes(), parent, col, CL); 


LOG.debug("Inserted HotelByCity index for " + hotelName); 


) // 插入 Bycity 索引 结束 


//POI: 兴趣 点 
public void insertAllPointsOfInterest() throws Exception { 


) 


LOG.debug("Inserting POIs."); 


insertPOIEmpireState(); 
insertPOICentralPark(); 
insertPOIPhoenixZoo(); 
insertPOISpringTraining(); 


LOG.debug("Done inserting POIs."); 


private void insertPOISpringTraining() throws Exception ( 


Map«byte[], Map«String, List«Mutation»»» outerMap = 


//Map«byte[]l,Map«String, List«Mutation»»» 


new HashMap«byte[], Map«String, List«Mutation»»»(); 


List«Mutation» columnsToAdd = new ArrayList«Mutation»(); 


Clock clock = new Clock(System.nanoTime()); 
String keyName - "Spring Training"; 
Column descCol = new Column("desc".getBytes(UTF8), 


"Fun for baseball fans.".getBytes("UTF-8"), clock); 


Column phoneCol = new Column("phone".getBytes(UTF8), 


"623-333-3333" .getBytes (UTF8), clock); 


List«Column» cols = new ArrayList«Column»(); 
cols.add(descCol); 
cols.add(phoneCol); 


Map«String, List«Mutation»» innerMap = 


new HashMap«String, List«Mutation»»(); 





Mutation columns - new Mutation(); 

ColumnOrSuperColumn descCosc - new ColumnOrSuperColumn(); 
SuperColumn sc - new SuperColumn(); 

Sc.name - CAMBRIA NAME.getBytes(); 

Sc.columns - cols; 


descCosc.super column - sc; 
columns.setColumn or supercolumn (descCosc); 


columnsToAdd.add (columns); 

String superCFName - "PointOfInterest"; 
ColumnPath cp - new ColumnPath(); 

cp.column family - superCFName; 

cp.setSuper column(CAMBRIA NAME.getBytes()); 


cp.setSuper columnIsSet (true); 


innerMap.put (superCFName, columnsToAdQd); 
outerMap.put(keyName.getBytes(), innerMap); 


client.batch mutate(outerMap, CL); 


LOG.debug("Done inserting Spring Training."); 


private void insertPOIPhoenixZoo() throws Exception { 


Map«byte[], Map«String, List«Mutation»»» outerMap = 
new HashMap«byte[], Map«String, List«Mutation»»»(); 
List«Mutation» columnsToAdd = new ArrayList«Mutation»(); 


long ts - System.currentTimeMillis(); 
String keyName - "Phoenix Zoo"; 
Column descCol = new Column("desc".getBytes(UTF8), 
"They have animals here.".getBytes("UTF-8"), new Clock(ts)); 


Column phoneCol = new Column("phone".getBytes(UTF8), 
"480-555-9999" .getBytes (UTF8), new Clock(ts)); 


List«Column» cols = new ArrayList«Column»(); 
cols.add(descCol); 
cols.add(phoneCol); 


Map«String, List«Mutation»» innerMap = 
new HashMap«String, List«Mutation»»(); 


String cambriaName - "Cambria Suites Hayden"; 


Mutation columns - new Mutation(); 

ColumnOrSuperColumn descCosc - new ColumnOrSuperColumn(); 
SuperColumn sc - new SuperColumn(); 

Sc.name - cambriaName.getBytes(); 

Sc.columns = cols; 


descCosc.super column - sc; 
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columns.setColumn or supercolumn (descCosc); 
columnsToAdd.add (columns); 


String superCFName - "PointOfInterest"; 
ColumnPath cp - new ColumnPath(); 

cp.column family - superCFName; 

cp.setSuper column(cambriaName.getBytes()); 
cp.setSuper columnIsSet (true); 


innerMap.put(superCFName, columnsToAdd); 
outerMap.put(keyName.getBytes(), innerMap); 


client.batch mutate(outerMap, CL); 


LOG.debug("Done inserting Phoenix Zoo."); 


) 


private void insertPOICentralPark() throws Exception { 


Map«byte[], Map«String, List«Mutation»»» outerMap = 
new HashMap«byte[], Map«String, List«Mutation»»»(); 
List«Mutation» columnsToAdd = new ArrayList«Mutation»(); 


Clock clock = new Clock(System.nanoTime()); 

String keyName - "Central Park"; 

Column descCol = new Column("desc".getBytes(UTF8), 
"Walk around in the park. It's pretty.".getBytes("UTF-8"), 
clock); 


/ / 公园 没有 电话 列 
List«Column» cols = new ArrayList«Column»(); 
cols.add(descCol); 





Map«String, List«Mutation»» innerMap = 
new HashMap«String, List«Mutation»»(); 


Mutation columns - new Mutation(); 

ColumnOrSuperColumn descCosc - new ColumnOrSuperColumn(); 
SuperColumn waldorfSC - new SuperColumn(); 

waldorfSC.name - WALDORF NAME.getBytes(); 
waldorfSC.columns = cols; 


descCosc.super column - waldorfSC; 
columns.setColumn or supercolumn (descCosc); 


columnsToAdd.add (columns); 


String superCFName - "PointOfInterest"; 
ColumnPath cp - new ColumnPath(); 

cp.column family - superCFName; 

cp.setSuper column(WALDORF NAME.getBytes()); 
cp.setSuper columnIsSet (true); 


innerMap.put(superCFName, columnsToAdd); 





outerMap.put(keyName.getBytes(), innerMap); 
client.batch mutate(outerMap, CL); 


LOG.debug("Done inserting Central Park."); 


private void insertPOIEmpireState() throws Exception { 
Map«byte[], Map«String, List«Mutation»»» outerMap = 
new HashMap«byte[], Map«String, List«Mutation»»»(); 


List«Mutation» columnsToAdd = new ArrayList«Mutation»(); 


Clock clock - new Clock(System.nanoTime()); 

String esbName - "Empire State Building"; 

Column descCol = new Column("desc".getBytes(UTF8), 
"Great view from 102nd floor.".getBytes("UTF-8"), 
clock); 

Column phoneCol = new Column("phone".getBytes(UTF8), 
"212-777-7777" .getBytes (UTF8), clock); 


List«Column» esbCols = new ArrayList«Column»(); 
esbCols.add(descCol); 
esbCols.add(phoneCol); 


Map«String, List«Mutation»» innerMap = new HashMap«String, List 
«Mutation»»(); 


Mutation columns - new Mutation(); 
ColumnOrSuperColumn descCosc - new ColumnOrSuperColumn(); 
SuperColumn waldorfSC - new SuperColumn(); 


waldorfSC.name - WALDORF NAME.getBytes(); 
waldorfSC.columns - esbCols; 


descCosc.super column - waldorfSC; 
columns.setColumn or supercolumn (descCosc); 


columnsToAdd.add (columns); 

String superCFName - "PointOfInterest"; 
ColumnPath cp - new ColumnPath(); 

cp.column family - superCFName; 

cp.setSuper column(WALDORF NAME.getBytes()); 


cp.setSuper columnIsSet (true); 


innerMap.put(superCFName, columnsToAdQd); 
outerMap.put(esbName.getBytes(), innerMap); 


client.batch mutate(outerMap, CL); 


LOG.debug("Done inserting Empire State."); 





应 用 实例 | 


71 


// 














于 一 次 进行 所 有 插入 操作 的 辅助 方法 


public void insertAllHotels() throws Exception { 


) 


String columnFamily = "Hotel"; 


/ / 行 键 值 

String cambriaKey = "AZC 043"; 
String clarionKey = "AZS 011"; 
String wKey - "CAS 021"; 
String waldorfKey - "NYN 042"; 


// 辅助 操作 


Map<byte[], Map<String, List<Mutation>>> cambriaMutationMap 


createCambriaMutation(columnFamily, cambriaKey); 


Map«byte[], Map«String, List«Mutation»»» clarionMutationMap 


createClarionMutation(columnFamily, clarionKey); 


Map«byte[]l, Map«String, List«Mutation»»» waldorfMutationMap 


createWaldorfMutation(columnFamily, waldorfKey); 








Map«byte[], Map«String, List«Mutation»»» wMutationMap = 
createWMutation(columnFamily, wKey); 


client.batch mutate(cambriaMutationMap, CL 
LOG.debug("Inserted " + cambriaKey); 
client.batch mutate(clarionMutationMap, CL 
LOG.debug("Inserted " + clarionKey); 
client.batch mutate(wMutationMap, CL); 
LOG.debug("Inserted " + wKey); 
client.batch mutate(waldorfMutationMap, CL); 
LOG.debug("Inserted " + waldorfKey); 











LOG.debug("Done inserting at " + System.nanoTime()); 


/ / 设置 要 插入 的 Ww 的 各 列 


private Map«byte[], Map«String, 


String columnFamily, String rowKey) 
throws UnsupportedEncodingException { 


Clock clock - new Clock(System.nanoTime()); 


Column nameCol = new Column("name".getBytes(UTF8), 
W NAME.getBytes("UTF-8"), clock); 

Column phoneCol = new Column("phone".getBytes(UTF8), 
"415-222-2222".getBytes(UTF8), clock); 


Column addressCol = new Column("address".getBytes(UTF8), 


"181 3rd Street".getBytes(UTF8), clock); 

Column cityCol = new Column("city".getBytes(UTF8), 
"San Francisco".getBytes(UTF8), clock); 

Column stateCol = new Column("state".getBytes(UTF8), 
"CA".getBytes("UTF-8"), clock); 

Column zipCol - new Column("zip".getBytes(UTF8), 
"94103".getBytes(UTF8), clock); 


List«Mutation»»» createWMutation( 
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ColumnOrSuperColumn nameCosc - new ColumnOrSuperColumn(); 
nameCosc.column - nameCol; 


ColumnOrSuperColumn phoneCosc = new ColumnOrSuperColumn(); 
phoneCosc.column - phoneCol; 


ColumnOrSuperColumn addressCosc - new ColumnOrSuperColumn(); 
addressCosc.column - addressCol; 


ColumnOrSuperColumn cityCosc - new ColumnOrSuperColumn(); 
cityCosc.column - cityCol; 


ColumnOrSuperColumn stateCosc = new ColumnOrSuperColumn(); 
SstateCosc.column = stateCol; 


ColumnOrSuperColumn zipCosc = new ColumnOrSuperColumn(); 
zipCosc.column - zipCol; 


Mutation nameMut - new Mutation(); 
nameMut.column or supercolumn - nameCosc; 
Mutation phoneMut - new Mutation(); 
phoneMut.column or supercolumn - phoneCosc; 
Mutation addressMut - new Mutation(); 
addressMut.column or supercolumn = addressCosoc; 
Mutation cityMut - new Mutation(); 
cityMut.column or supercolumn = cityCosc; 
Mutation stateMut - new Mutation(); 
SstateMut.column or supercolumn = stateCosc; 
Mutation zipMut - new Mutation(); 
zipMut.column or supercolumn - zipCosc; 


/ / V & batch 
Map«byte[], Map«String, List«Mutation»»» mutationMap = 
new HashMap«byte[], Map«String, List«Mutation»»»(); 


Map«String, List«Mutation»» muts = 
new HashMap«String, List«Mutation»»(); 
List«Mutation» cols = new ArrayList«Mutation»(); 
cols.add (nameMut); 
cols.add(phoneMut); 
cols.add(addressMut); 
cols.add(cityMut); 
cols.add(stateMut); 
cols.add(zipMut); 


muts.put(columnFamily, cols); 

















// 外 层 映 射 是 行 键 值 
/ / 内 层 映射 是 列 族 名 
mutationMap.put(rowKey.getBytes(), muts); 


return mutationMap; 


} 
// 添加 Waldorf 酒店 到 Hotel 列 族 
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private Map«byte[]l, Map«String, List«Mutation»»» createWaldorfMutation( 


String columnFamily, String rowKey) 
throws UnsupportedEncodingException { 


Clock clock = new Clock(System.nanoTime()); 


Column nameCol = new Column("name".getBytes(UTF8), 
WALDORF NAME.getBytes("UTF-8"), clock); 

Column phoneCol = new Column("phone".getBytes(UTF8), 
"212-555-5555".getBytes(UTF8), clock); 

Column addressCol = new Column("address".getBytes(UTF8), 
"301 Park Ave".getBytes(UTF8), clock); 

Column cityCol = new Column("city".getBytes(UTF8), 
"New York".getBytes(UTF8), clock); 

Column stateCol = new Column("state".getBytes(UTF8), 
"NY".getBytes("UTF-8"), clock); 

Column zipCol = new Column("zip".getBytes(UTF8), 
"10019".getBytes(UTF8), clock); 





ColumnOrSuperColumn nameCosc - new ColumnOrSuperColumn(); 
nameCosc.column - nameCol; 


ColumnOrSuperColumn phoneCosc - new ColumnOrSuperColumn(); 
phoneCosc.column - phoneCol; 


ColumnOrSuperColumn addressCosc - new ColumnOrSuperColumn(); 
addressCosc.column = addressCol; 


ColumnOrSuperColumn cityCosc = new ColumnOrSuperColumn(); 
cityCosc.column - cityCol; 


ColumnOrSuperColumn stateCosc - new ColumnOrSuperColumn(); 
stateCosc.column - stateCol; 


ColumnOrSuperColumn zipCosc - new ColumnOrSuperColumn(); 
zipCosc.column - zipCol; 


Mutation nameMut - new Mutation(); 
nameMut.column or supercolumn - nameCosc; 
Mutation phoneMut - new Mutation(); 
phoneMut.column or supercolumn - phoneCosc; 
Mutation addressMut - new Mutation(); 
addressMut.column or supercolumn = addressCosc; 
Mutation cityMut - new Mutation(); 
cityMut.column or supercolumn - cityCosc; 
Mutation stateMut - new Mutation(); 


SstateMut.column or supercolumn = stateCosc; 
Mutation zipMut - new Mutation(); 
zipMut.column or supercolumn - zipCosc; 


/ / 设置 batch 
Map«byte[], Map«String, List«Mutation»»» mutationMap = 
new HashMap«byte[], Map«String, List«Mutation»»»(); 


Map<String, List«Mutation»» muts = 





new HashMap«String, List«Mutation»»(); 
List«Mutation» cols = new ArrayList«Mutation»(); 
cols.add (nameMut); 
cols.add(phoneMut); 
cols.add(addressMut); 
cols.add(cityMut); 
cols.add(stateMut); 
cols.add(zipMut); 


muts.put(columnFamily, cols); 





/ / 外 层 映射 是 行 键 值 
// 内 层 映射 是 列 族 名 

mutationMap.put (rowKey.getBytes(), muts); 
return mutationMap; 














} 
// 设置 clarion 要 插入 的 各 列 


private Map«byte[], Map<String, List<Mutation>>> createClarionMutation( 


String columnFamily, String rowKey) 
throws UnsupportedEncodingException { 


Clock clock - new Clock(System.nanoTime()); 


Column nameCol = new Column("name".getBytes(UTF8), 
CLARION NAME.getBytes("UTF-8"), clock); 

Column phoneCol = new Column("phone".getBytes(UTF8), 
"480-333-3333" .getBytes (UTF8), clock); 

Column addressCol = new Column("address".getBytes(UTF8), 
"3000 N. Scottsdale Rd".getBytes(UTF8), clock); 

Column cityCol = new Column("city".getBytes(UTF8), 
"Scottsdale".getBytes(UTF8), clock); 

Column stateCol = new Column("state".getBytes(UTF8), 
"AZ".getBytes("UTF-8"), clock); 

Column zipCol = new Column("zip".getBytes(UTF8), 
"B5255".getBytes(UTF8), clock); 


ColumnOrSuperColumn nameCosc - new ColumnOrSuperColumn(); 
nameCosc.column - nameCol; 


ColumnOrSuperColumn phoneCosc = new ColumnOrSuperColumn(); 


phoneCosc.column - phoneCol; 


ColumnOrSuperColumn addressCosc - new ColumnOrSuperColumn(); 


addressCosc.column = addressCol; 


ColumnOrSuperColumn cityCosc - new ColumnOrSuperColumn(); 
cityCosc.column - cityCol; 


ColumnOrSuperColumn stateCosc = new ColumnOrSuperColumn(); 


SstateCosc.column = stateCol; 


ColumnOrSuperColumn zipCosc = new ColumnOrSuperColumn(); 
zipCosc.column - zipCol; 
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Mutation nameMut - new Mutation(); 
nameMut.column or supercolumn - nameCosc; 
Mutation phoneMut - new Mutation(); 
phoneMut.column or supercolumn - phoneCosc; 
Mutation addressMut - new Mutation(); 
addressMut.column or supercolumn = addressCosc; 
Mutation cityMut - new Mutation(); 
cityMut.column or supercolumn - cityCosc; 
Mutation stateMut - new Mutation(); 


stateMut.column or supercolumn = stateCosc; 
Mutation zipMut - new Mutation(); 
zipMut.column or supercolumn - zipCosc; 


/ / 设置 batch 
Map«byte[]l, Map«String, List«Mutation»»» mutationMap = 
new HashMap«byte[], Map«String, List«Mutation»»»(); 


Map«String, List«Mutation»» muts = 
new HashMap«String, List«Mutation»»(); 
List«Mutation» cols = new ArrayList«Mutation»(); 
cols.add (nameMut); 
cols.add(phoneMut); 
cols.add(addressMut); 
cols.add(cityMut); 
cols.add(stateMut); 
cols.add(zipMut); 


muts.put(columnFamily, cols); 


/ / 外 层 映射 是 行 键 值 
// 内 层 映射 是 列 族 名 


mutationMap.put(rowKey.getBytes(), muts); 





return mutationMap; 


/ / 设置 要 插入 的 Cambria 的 各 列 


private Map«byte[], Map«String, List«Mutation»»» createCambriaMutation( 


String columnFamily, String cambriaKey) 
throws UnsupportedEncodingException { 


/ / 设置 Cambria 的 各 列 


Clock clock = new Clock(System.nanoTime()); 


Column cambriaNameCol = new Column("name".getBytes(UTF8), 
"Cambria Suites Hayden".getBytes("UTF-8"), clock); 
Column cambriaPhoneCol = new Column("phone".getBytes(UTF8), 
"480-444-4444" .getBytes(UTF8), clock); 

Column cambriaAddressCol = new Column("address".getBytes(UTF8), 
"400 N. Hayden".getBytes(UTF8), clock); 

Column cambriaCityCol = new Column("city".getBytes(UTF8), 
"Scottsdale".getBytes(UTF8), clock); 

Column cambriaStateCol = new Column("state".getBytes(UTF8), 
"AZ".getBytes("UTF-8"), clock); 

Column cambriaZipCol = new Column("zip".getBytes(UTF8), 
"B85255".getBytes(UTF8), clock); 





ColumnOrSuperColumn nameCosc - new ColumnOrSuperColumn(); 
nameCosc.column - cambriaNameCol; 


ColumnOrSuperColumn phoneCosc = new ColumnOrSuperColumn(); 
phoneCosc.column - cambriaPhoneCol; 


ColumnOrSuperColumn addressCosc - new ColumnOrSuperColumn(); 
addressCosc.column - cambriaAddressCol; 


ColumnOrSuperColumn cityCosc - new ColumnOrSuperColumn(); 
cityCosc.column - cambriaCityCol; 


ColumnOrSuperColumn stateCosc = new ColumnOrSuperColumn(); 
stateCosc.column - cambriaStateCol; 


ColumnOrSuperColumn zipCosc = new ColumnOrSuperColumn(); 
zipCosc.column = cambriaZipCol; 


Mutation nameMut - new Mutation(); 
nameMut.column or supercolumn - nameCosc; 
Mutation phoneMut - new Mutation(); 
phoneMut.column or supercolumn - phoneCosc; 
Mutation addressMut - new Mutation(); 
addressMut.column or supercolumn - addressCosc; 
Mutation cityMut - new Mutation(); 
cityMut.column or supercolumn = cityCosc; 
Mutation stateMut - new Mutation(); 
stateMut.column or supercolumn = stateCosc; 
Mutation zipMut - new Mutation(); 
zipMut.column or supercolumn = zipCosc; 


/ / 设置 batch 
Map«byte[], Map«String, List«Mutation»»» cambriaMutationMap = 
new HashMap«byte[], Map«String, List«Mutation»»»(); 


Map«String, List«Mutation»» cambriaMuts = 
new HashMap«String, List«Mutation»»(); 
List«Mutation» cambriaCols - new ArrayList«Mutation»(); 
cambriaCols.add (nameMut); 
cambriaCols.add(phoneMut); 
cambriaCols.add(addressMut); 
cambriaCols.add(cityMut); 
cambriaCols.add(stateMut); 
cambriaCols.add(zipMut); 


cambriaMuts.put(columnFamily, cambriaCols); 


/ / 外 层 映 射 是 行 键 什 

/ / 内 层 映 射 是 列 族 名 
cambriaMutationMap.put(cambriaKey.getBytes(), cambriaMuts); 
return cambriaMutationMap; 
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这 个 例子 有 点 长 ， 给 出 了 比 “Hello, world” 更 多 的 信息 一 一 例子 中 包含 很 多 普通 列 
族 和 超级 列 族 的 insert FU batch mutate 操作 。 其 中 ， 我 刻意 选择 了 多 行 不 同类 
型 的 数据 ， 这 样 会 让 查询 也 复杂 一 些 。 


这 个 应 用 会 首先 运行 这 个 类 ， 一旦 预 装载 方法 执行 完成 ， 数 据 库 里 就 会 拥有 所 有 这 
些 数据 ， 从 而 可 以 用 这 些 数 据 进 行 搜 索 了 。 


4.4.5 ”搜索 应 用 

例 4-7 是 可 供 执行 的 带 有 main 方法 的 Java 类 。 它 依赖 于 Log4J 来 输出 信息 ， 所 以 ， 
在 运行 前 可 以 先 设 置 log4j.properties 文件 。 你 需要 做 的 所 有 事情 就 是 运行 这 个 类 ， 
随后 数据 库 就 会 预 装 入 所 有 的 酒店 和 兴趣 点 信息 。 之 后 ， 程 序 让 用 户 查 找 指 定 城 市 
中 的 酒店 。 用 户 选择 一 个 酒店 后 ， 程 序 会 取出 附近 的 兴趣 点 。 如 果 你 有 兴趣 ， 可 以 
在 这 个 程序 的 基础 上 ， 继 续 实现 应 用 的 其 他 部 分 ， 来 提供 预定 房间 的 功能 。 














例 4-7: HotelApp.java 


package com.cassandraguide.hotel; 





import static com.cassandraguide.hotel.Constants.CL; 
import static com.cassandraguide.hotel.Constants.UTF8; 


import java.util.ArrayList; 
import java.util.List; 


import org.apache.cassandra.thrift.Cassandra; 
import org.apache.cassandra.thrift.Column; 

































































import org.apache.cassandra.thrift.ColumnOrSuperColumn; 
import org.apache.cassandra.thrift.ColumnParent; 
import org.apache.cassandra.thrift.KeyRange; 
import org.apache.cassandra.thrift.KeySlice; 
import org.apache.cassandra.thrift.SlicePredicate; 
import org.apache.cassandra.thrift.SliceRange; 
import org.apache.cassandra.thrift.SuperColumn; 
import org.apache.log4j.Logger; 
/** 
* 运行 酒店 应 用 。 在 数据 库 预 装载 后 ， 这 个 类 会 模拟 一 个 用 户 交 互 行为 ， 
* 搜索 一 个 城市 中 的 酒店 ， 选 择 其 中 一 个 ， 然 后 查看 酒店 周围 的 兴趣 点 。 
* 
* 这 个 类 中 会 展示 具体 化 视图 模式 、get、get_range slice. key slices 
* 
* 为 了 简化 代码 ，main 方法 会 直接 抛 出 下 列 异 常 : 
* 


UnsupportedEncodingException, 
InvalidRequestException, UnavailableException, TimedOutException, 
TException, NotFoundException, InterruptedException 





对 于 一 些 和 常用 字符 串 ， 使 用 了 constants 类 。 
*/ 











public class HotelApp { 
private static final Logger LOG = Logger.getLogger (HotelApp.class); 


public static void main(String[] args) throws Exception { 


) 


/ / 先 把 所 有 数据 放 入 数据 库 


new Prepopulate().prepopulate(); 
LOG.debug("** Database filled. **"); 





// 现在 运行 客户 端 
LOG.debug("** Starting hotel reservation app. **"); 
HotelApp app - new HotelApp(); 





/ / 通过 城市 来 查找 酒店 ， 尝 试 Scottsdale 或 是 纽约 








List<Hotel> hotels = app.findHotelByCity("Scottsdale", "AZ"); 
//List«Hotel» hotels - app.findHotelByCity("New York", "NY"); 
LOG.debug("Found hotels in city. Results: " + hotels.size()); 
// 选择 一 个 


Hotel h = hotels.get(0); 


LOG.debug("You picked " + h.name); 





/ / 查找 酒店 周边 的 兴趣 点 
LOG.debug("Finding Points of Interest near " + h.name); 
List«POI» points - app.findPOIByHotel (h.name); 














// 选择 一 个 兴趣 点 
POI poi = points.get(0); 





LOG.debug("Now to book a room..."); 
// 显示 有 空房 的 日 期 
// 预定 房间 


// 留 作 练习 .. . 
LOG.debug("All done."); 





/ / 使 用 列 分 片 来 读 取 超 级 列 


public List<POI> findPOIByHotel(String hotel) throws Exception { 


/// 查询 

SlicePredicate predicate = new SlicePredicate(); 
SliceRange sliceRange - new SliceRange(); 
sliceRange.setStart (hotel.getBytes()); 
SliceRange.setFinish(hotel.getBytes()); 
predicate.setSlice range (sliceRange); 


// 读 取 这 行 的 所 有 列 
String scFamily = "PointOfInterest"; 
ColumnParent parent = new ColumnParent (scFamily); 


KeyRange keyRange - new KeyRange(); 
keyRange.start key - "".getBytes(); 
keyRange.end key - "".getBytes(); 


LOG.debug("Hm... " + poi.name + ". " + poi.desc + "--Sounds fun!"); 
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List«POI» pois = new ArrayList«POI»(); 





/ / 取出 的 不 是 一 个 简单 的 列表 ， 而 是 一 个 映射 ， 映射 的 键 值 是 行 键 值 





// 值 是 行 键 值 对 应 的 列 的 列表 

// 只 有 行 键 值 十 第 一 列 是 有 索引 的 

Connector cl = new Connector(); 

Cassandra.Client client - cl.connect(); 

List«KeySlice» slices - client.get range slices( 
parent, predicate, keyRange, CL); 


for (KeySlice slice : slices) { 


List«ColumnOrSuperColumn» cols - slice.columns; 


POI poi - new POI(); 
poi.name - new String(slice.key); 


for (ColumnOrSuperColumn cosc : cols) ( 
SuperColumn sc - cosc.super column; 


List«Column» colsInSc - sc.columns; 
for (Column c : colsInSc) { 


String colName - new String(c.name, 
if (colName.equals("desc")) { 


UTF8); 


poi.desc - new String(c.value, UTF8); 


) 


if (colName.equals("phone")) { 
poi.phone - new String(c.value, 


) 


LOG.debug("Found something neat nearby: 
", MnDesc: " + poi.desc + 
". NnPhone: " + poi.phone); 
pois.add(poi); 


) 


cl.close(); 
return pois; 


/ / 使 用 键 值 区 间 





UTF8); 


" + poi.name + 


public List«Hotel» findHotelByCity(String city, String state) 


throws Exception { 
LOG.debug("Seaching for hotels in " + city + ", 
String key = city + ":" + state.toUpperCase(); 


/// 查询 

SlicePredicate predicate = new SlicePredicate(); 
SliceRange sliceRange - new SliceRange(); 
sliceRange.setStart (new byte[0]); 
SliceRange.setFinish(new byte[0]); 
predicate.setSlice range(sliceRange); 


" + state); 





) 


// 读 取 行 
String c 
ColumnPa 


KeyRange 


keyRange. 
keyRange. 
keyRange. 


Connecto 
Cassandr 





List«Hot 





中 的 所 有 列 
olumnFamily = "HotelByCity"; 
rent parent - new ColumnParent (columnFamily); 
keyRange - new KeyRange(); 
SetStart key(key.getBytes()); 
setEnd key((key«1).getBytes 0); // 键 值 区 间 外 一 点 
count = 5; 
r cl - new Connector(); 
a.Client client - cl.connect(); 


List«KeySlice» keySlices - 
client.get range slices(parent, predicate, keyRange, CL); 


el» results = new ArrayList«Hotel»(); 


for (KeySlice ks : keySlices) { 


List 





«ColumnOrSuperColumn» coscs - ks.columns; 


LOG.debug(new String("Using key " + ks.key)); 
for (ColumnOrSuperColumn cs : coscs) ( 
Hotel hotel - new Hotel(); 
hotel.name - new String(cs.column.name, UTF8); 
hotel.city = city; 
hotel.state - state; 
results.add(hotel); 
LOG.debug("Found hotel result for " + hotel.name); 
} 
} 
// 查询 结束 
cl.close(); 


return results; 


我 在 代码 中 插入 了 零散 的 注释 ， 以 解释 每 段 代 码 的 用 途 。 
程序 运行 的 输出 如 例 4-8 所 示 。 
例 4-8: 酒店 应 用 运行 的 输出 
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09 
09 
09 
09 
09 
09 
09 
09 
09 
09 
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:49:50,8 
:49:50,8 
:49:50,8 
:49:50,8 
:49:50,8 
:49:50,8 
:49:50,8 
:49:50,8 
:49:50,8 
:49:50,8 
:49:50,8 


58 Inserted AZC 043 
61 Inserted AZS 011 
63 Inserted CAS 021 
64 Inserted NYN 042 
64 Done inserting at 6902368219815217 


73 Inserted HotelByCity index for Cambria Suites Hayden 
74 Inserted HotelByCity index for Clarion Scottsdale Peak 


75 Inserted HotelByCity index for The W SF 





77 Inserted HotelByCity index for The Waldorf-Astoria 


77 Inserting POIs. 
80 Done inserting Empire State. 
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DEBUG 09:49:50,881 Done inserting Central Park. 

DEBUG 09:49:50,885 Done inserting Phoenix Zoo. 

DEBUG 09:49:50,887 Done inserting Spring Training. 

DEBUG 09:49:50,887 Done inserting POIs. 

DEBUG 09:49:50,887 ** Database filled. ** 

DEBUG 09:49:50,889 ** Starting hotel reservation app. ** 

DEBUG 09:49:50,889 Seaching for hotels in Scottsdale, AZ 

DEBUG 09:49:50,902 Using key [B915e9756 

DEBUG 09:49:50,903 Found hotel result for Cambria Suites Hayden 
DEBUG 09:49:50,903 Found hotel result for Clarion Scottsdale Peak 
DEBUG 09:49:50,904 Found hotels in city. Results: 2 

DEBUG 09:49:50,904 You picked Cambria Suites Hayden 

DEBUG 09:49:50,904 Finding Points of Interest near Cambria Suites Hayden 
DEBUG 09:49:50,911 Found something neat nearby: Phoenix Zoo. 
Desc: They have animals here.. 

Phone: 480-555-9999 

DEBUG 09:49:50,911 Found something neat nearby: Spring Training. 
Desc: Fun for baseball fans.. 

Phone: 623-333-3333 

DEBUG 09:49:50,911 Hm... Phoenix Zoo. They have animals here.--Sounds fun! 
DEBUG 09:49:50,911 Now to book a room... 

DEBUG 09:49:50,912 All done. 








7 














提示 一 下 ， 通 常 不 需要 直接 写 Thrift 或 是 Avro， 而 应 该 使 用 第 8 章 给 出 的 某 个 客户 
端 。 这 个 例子 的 目的 是 解释 使 用 Cassandra 工作 的 一 些 具 体 情况 ， 并 展示 一 个 完整 
可 用 的 应 用 是 如 何 进行 各 种 插入 、 查 询 的 ， 就 像 在 现实 世界 使 用 一 样 。 








4.5 Twissandra 


当 你 开始 研究 如 何 用 Cassandra 进行 设计 的 时 候 ， 可 以 先 看 看 Eric Florenzano 写 
的 Twissandra。 这 是 一 个 可 以 工作 的 Twitter 的 克隆 ， 在 http://www.twissandra.com 
下 载 并 试用 。 源 代码 是 用 Python 写 的 ， 有 一 些 对 Django 和 JSON 库 的 依赖 关系 需 
要 解决 ， 不 过 仍然 是 个 很 不 错 的 起 点 。 这 里 可 以 使 用 你 非常 熟悉 的 数据 模型 (如 
Twitter 的 )， 看 到 其 中 的 用 户 、 时 间 线 、 消 息 等 是 如 何 放 到 一 个 简单 的 Cassandra 数 
据 模 型 当中 的 。 


Eric Evans 有 一 篇 非常 不 错 的 博客 文章 ， 介 绍 了 如 何 使 用 Twissandra， 这 篇 文章 位 
于 http://www.rackspacecloud.com/blog/2010/05/12/cassandra-by-example!, 





4.6 ”小结 


本 章 我 们 学 习 了 如 何 创建 一 个 完整 可 用 的 Cassandra 应 用 。 我 们 对 比 了 一 个 典型 的 
关系 模型 ， 展 示 了 如 何在 Cassandra 中 完成 同样 的 工作 ， 并 且 介 绍 了 和 数据 库 交 互 
的 多 种 方法 。 





译注 1: 译 者 曾 翻译 过 此 篇 文章 ， 位 于 http://wangxu.me/blog/p/383。 











第 5 章 
Cassandra 的 架构 





在 本 章 中 ， 我 们 将 探讨 Cassandra 的 内 部 设计 ， 以 便 理解 它 是 如 何 工作 的 。 我 们 将 
剖析 Cassandra 的 P2P 设计 ， 以 及 对 应 的 gossip 协议 ，Cassandra 如 何 处 理 读 写 请 
求 ， 并 研究 这 些 设计 抉择 是 如 何 影响 Cassandra 的 架构 性 考虑 的 ， 这 些 考虑 包括 可 
扩展 性 、 持 和 久 性 、 可 用 性 、 可 管理 性 等 。 我 们 还 将 讨论 Cassandra 所 采用 的 分 阶段 
事件 驱动 架构 ， 这 种 架构 在 Cassandra 中 是 作为 请 求 代理 平台 的 。 

Cassandra 的 架构 非常 精巧 ， 构 建 于 多 种 理论 结构 之 上 。 在 讨论 这 里 的 新 名 词 时 ， 可 
能 会 不 可 避免 地 引用 其 他 还 出 现 过 的 新 名 词 。 这 确实 有 点 让 人 泪 丧 ， 因 此 我 在 本 书 
的 最 后 加 入 了 一 个 词汇 表 ， 以 作 参 考 。 























5.1 System keyspace 


Cassandra 有 一 个 称 为 system 的 内 部 keyspace， 用 于 存储 关于 集群 的 原 数据 ， 以 
帮助 各 种 操作 顺利 进行 。 在 微软 的 SQL Server 中 ， 同 样 维护 着 两 个 元 数据 库 ; 
master flltempdb, master 用 于 保存 磁盘 空间 、 使 用 率 、 系 统 设置 以 及 一 般 性 的 
服务 安装 信息 ， 而 tempdab 则 是 一 个 工作 空间 ， 用 于 存储 中 间 结 果 和 完成 一 般 性 任 
务 的 。Oracle 数据 库 也 有 一 个 称 为 SYSTEM 的 表 空 间 ， 用 作 类 似 用 途 。Cassandra 的 
system keyspace 的 用 途 与 这 些 数 据 库 非 常 类 似 。 


特别 指出 ，system keyspace 不 仅 存 储 了 用 于 本 地 市 点 的 元 数据 ， 也 存储 提示 切换 
信息 。 这 些 元 数据 包括 : 
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。 用 于 支持 动态 装载 的 keyspace 和 schema 的 定义 ; 
迁移 数据 ， 
。 节点 是 否 自 举 成 功 。 


schema 的 定义 存储 于 两 个 列 族 之 中 : Schema 列 族 保存 用 户 的 keyspace 和 schema 
的 定义 ， 而 Migrations 列 族 则 用 于 记录 对 keyspace 的 变更 。 


system keyspace 是 无 法 手工 修改 的 。 


5.2 ”对 等 结构 


在 传统 的 多 节点 部 署 的 数据 库 (如 MySQL)， 其 至 是 使 用 较 新 模型 的 数据 库 产 品 
(如 Google 的 Bigtable) 中 ， 某 些 节 点 会 被 设计 为 主 节点 ， 其 他 节点 则 作为 从 节点 。 
它们 在 集群 中 扮演 不 同 的 角色 : 主 节 点 具有 对 数据 的 控制 权 ， 从 节点 与 主 节 点 进行 
数据 同步 。 任 何 变 更 都 会 写 入 主 闻 点 ， 并 从 主 布 点 传送 给 从 节点 。 这 个 模型 是 对 读 
数据 优化 的 ， 因 为 它 允 许 客户 端 从 任意 一 个 从 市 点 读 取 信息 。 但 是 在 这 个 模型 中 ， 
数据 复制 是 从 主 到 从 单 向 的 。 这 带 来 的 一 个 严重 后 果 就 是 ， 所 有 写 操作 都 必须 送 到 
主 节 点 ;也 就 是 说 ， 存 在 一 个 潜在 的 单 点 故障 。 在 主 /从 设置 情况 下 ， 主 节点 掉 线 
的 后 果 会 很 严重 。 


Cassandra 与 此 相反 ， 采 用 了 对 等 结构 (P2P) 的 分 布 式 模 型 。 在 这 个 模型 中 ， 从 结 
构 上 说 ， 所 有 节点 的 地 位 都 彼此 相同 ， 也 就 是 说 ， 没 有 主 从 节点 的 差别 。Cassandra 
的 设计 目标 就 是 整个 系统 的 可 用 性 和 可 扩展 性 。P2P 设计 可 以 增强 整个 数据 库 的 可 
用 性 ， 因 为 虽然 任意 Cassandra 节点 掉 线 都 可 能 会 影响 系统 的 整体 吞吐 能 力 ， 但 这 
是 一 个 非常 缓和 的 降 质 过 程 ， 不 会 中 断 服 务 。 如 果 使 用 了 合理 的 副本 复制 策略 ， 故 
障 节 点 上 的 所 有 数据 将 仍然 可 以 被 读 写 。 


这 种 设计 还 让 Cassandra 更 加 易于 通过 增加 市 点 来 扩展 系统 。 因 为 所 有 市 点 的 行为 
是 相同 的 ， 要 增加 新 的 服务 器 ， 只 要 简单 地 把 节点 加 入 集群 就 可 以 了 。 新 节点 不 会 
立刻 开始 接受 请 求 ， 它 会 有 一 定时 间 用 于 学 习 整 个 环 的 拓扑 ， 并 接收 它 可 能 将 要 负 
责 的 数据 。 在 这 之 后 ， 它 就 可 以 加 入 这 个 环 并 开始 接受 请 求 了 。 这 是 一 个 非常 自动 
化 的 过 程 ， 只 需要 极 少 的 配置 工作 。 因 此 ， 相 比 于 主 /从 副本 复制 模式 ，P2P 设计 
让 规模 增长 和 缩减 都 更 加 容易 。 


5.3 gossip 与 故障 检测 
为 了 做 到 无 中 心 、 容 忍 网 络 分 裂 ，Cassandra 使 用 了 一 个 gossip (流言 ) 协议 来 进行 
环 内 通信 ， 这 样 每 个 节点 都 会 有 其 他 节点 的 状态 信息 。gossiper (流言 者 ) 在 定时 器 
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的 控制 之 下 ， 每 秒 钟 运行 一 次 。 提 示 移 交 (hinted handoff) 是 由 gossip 触发 的 ， 当 
一 个 节点 发 现 另 一 个 节点 重新 在 线 ， 而 它 正 好 有 关于 这 个 节点 的 提示 信息 时 ， 就 会 
触发 提示 移交 。 与 提示 移交 不 同 ， 逆 灶 是 一 个 手动 过 程 ， 不 是 由 gossip 触发 的 。 


gossip 协议 (流言 协议 ， 有 时 也 叫做 “传染 协议 ")， 通 常 假设 网 络 是 不 可 靠 的 ， 常 
见于 大 规模 、 无 中 心 的 网 络 系统 ， 经 常 作 为 分 布 式 数据 库 中 的 一 种 自动 数据 副本 复 
制 机 制 。gossip 得 名 于 流言 传播 (gossip) 的 概念 ， 是 一 种 节点 可 以 按照 自己 的 期 
望 ， 自 行 选择 与 之 交换 信息 的 节点 的 通信 方式 。 








» a 


Y "gossip 协议 ”这 个 名 词 是 1987 年 由 当时 施乐 公司 帕 洛 阿尔 托 研究 中 心 的 研究 
心 , 员 Alan Demer 发 明 的 ， 他 当时 正在 研究 不 可 靠 网 络 中 的 路 由 信息 传播 方法 。 


n 
(SA 








Cassandra 中 的 gossip 协议 主要 是 在 org. apache.cassandra.gms.Gossiper 类 
中 实现 的 ， 这 个 类 用 于 管理 本 地 节点 的 gossip 通信 。 当 一 个 服务 节点 启动 后 ， 它 会 
把 自己 注册 到 gossiper 上 ， 来 接收 端点 状态 信息 。 


因为 Cassandra 的 gossip 会 用 于 故障 检测 ， 所 以 Gossiper 类 会 维护 一 个 节点 列表 ， 
存储 节点 的 死活 信息 。 


gossiper 是 这 样 工 作 的 。 





(1) G2gossiper (按照 TimerTask 的 设置 ) 周期 性 地 运行 ， 在 环 里 随机 选择 一 个 市 
点 ， 发 起 对 这 个 节点 的 gossip 会 话 。 每 轮 gossip 需要 三 条 消息 。 

(2) gossip 的 发 起 者 给 它 选 好 的 伙伴 节点 发 送 一 条 GossipDigestSynMessage。 

B) 当 伙 伴 节 点 收 到 消息 时 ， 回 复 一 条 GossipDigestAckMessage. 

(4) 发 起 者 收 到 伙伴 发 回 的 响应 消息 后 ， 再 向 伙伴 发 送 一 条 GossipDigestAck2- 
Message， 以 此 完成 本 轮 gossip. 


当 gossiper 发 现 一 个 端点 已 经 死亡 的 时 候 ， 就 会 通过 在 它 本 地 的 列表 中 将 这 个 节点 
标记 为 死亡 来 对 这 个 节点 “宣判 ， 并 会 记 入 日 志 。 


Cassandra 的 故障 检测 非常 强健 ， 使 用 了 一 个 在 分 布 式 计算 领域 中 非常 流行 的 Phi 增 量 故 
障 检 测算 法 。 这 种 故障 检测 机 制 是 在 2004 年 由 日 本 先进 科学 技术 研究 所 首先 提出 的 。 


增 量 故障 检测 基于 两 个 基本 思路 。 第 一 个 整体 思路 是 ， 故 障 检测 应 该 是 灵活 的 ， 这 
通过 将 算法 与 被 监测 的 应 用 解 耦 来 实现 。 而 第 二 个 思路 ， 是 一 个 有 别 于 传统 故障 检 
测 的 更 新 颖 的 思路 ， 传 统 方法 使 用 简单 的 “心跳 ”机 制 来 判断 节点 是 否 已 死 一 一 通 
过 能 否 收 到 心跳 判断 节点 是 否 已 死 。 但 是 增 量 故障 检测 认为 这 种 方法 过 于 幼稚 ， 与 
此 不 同 ， 它 们 会 在 死活 两 个 极端 之 间 来 寻找 一 个 中 间 的 位 置 一 一 嫌疑 级 别 。 
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这 样 ， 故 障 监测 系统 会 根据 对 市 点 发 生 故 障 的 确信 程度 ， 输 出 一 个 连续 变化 的 “ 嫌 
疑 ” 级 别 ， 这 种 方法 的 优点 是 ， 它 将 网 络 环境 的 波动 性 考虑 在 内 了 。 例 如 ， 只 因为 
丢失 一 个 连接 并 不 能 确定 一 个 节点 已 经 死 了 。 嫌 疑 级 别 会 基于 观测 (心跳 的 采样 ) 
来 得 出 一 个 更 加 连续 的 、 具 有 前 摄 性 的 指示 ， 判 断 或 强 或 弱 的 故障 可 能 性 ， 而 不 是 
一 个 简单 的 死活 断言 。 





可 以 在 这 里 http://ddg.jaist.ac.jp/pub/HDY+04.pdf 陪读 Naohiro Hayashibara 
Qa. 等 人 关于 Phi 增 量 故 障 检测 的 论文 。 


， 
e 








Cassandra 中 的 故障 检测 在 org.apache.cassandra.gms.FailureDetector 类 
中 实现 ， 这 个 类 实现 了 org.apache .cassandra.gms.IFailureDetector 接口 。 它 们 
共同 允许 进行 如 下 操作 。 

* isAlive(InetAddress) 


故障 检测 器 会 返回 一 个 节点 的 存活 度 报告 。 


* interpret (InetAddress) 
由 gossiper 使 用 ， 基 于 通过 计算 Phi 得 到 的 嫌疑 级 别 ， 帮 助 gossiper BE — 1 
点 是 否 存活 (Phi 的 计算 如 Hayashibara 的 论文 所 述 ) 。 





* report (InetAddress) 
当 一 个 节点 接收 到 一 个 心跳 时 ， 会 调用 这 个 方法 。 


5.4 3X8 Ee E 

在 谈 到 gossip WNA, REESS ZA PERLE 9395 48, 3x dE 
— Ppi T PE USJAPRYEHUTSETSI. i8 (anti-entropy) 是 Cassandra 的 副本 同步 机 制 ， 
用 于 保障 不 同 节 点 上 的 数据 都 更 新 到 最 新 的 版 本 。 

接 下 来 就 是 逆 炉 是 如 何 工作 的 。 服 务 器 在 主 压 紧 操作 期 间 ， 会 与 邻居 节点 进行 一 
个 TreeRequest/TreeReponse 会 话 ， 交 换 Merkle 树 。Merkle 树 是 列 族 数 据 的 一 个 哈 
希 表 示 。 如 果 两 个 节点 的 树 不 匹配 ， 它 们 就 必须 进行 协商 (或 是 “修复 ”)， 以 确保 
两 者 都 持 有 最 新 的 数据 。 树 比较 确认 机 制 是 org.apache.cassandra.service. 
AntiEntropyService 2ÉHJHH 3t, AntiEntropyService 使 用 了 Singleton 模式 ， 
并 定义 了 静态 的 Differencer 类 ， 可 以 用 于 比较 两 棵 树 。 如 果 它 在 两 棵 树 之 间 发 
现 了 任何 差异 ， 都 会 对 差异 部 分 启动 一 个 修复 过 程 。 


亚马逊 的 Dynamo PEH f H, Cassandra 的 实现 就 使 用 的 Dynamo 的 模型 (参考 
Dynamo 论文 的 4.7 45), 
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Dynamo £E 3 Jàjrp [EH T Merkle 树 (参见 词汇 表 中 Merkle WHI X). Cassandra 
也 使 用 了 Merkle 树 ， 但 两 者 的 实现 略 有 不 同 。 在 Cassandra 中 ， 每 个 列 族 都 有 自己 
的 Merkle 树 ， 在 主 压 紧 操作 过 程 中 (参见 词汇 表 中 的 “ 压 紧 ”)，Merkle 是 作为 一 
个 快照 被 创建 的 ， 生 命 周 期 仅 限于 它 被 需要 发 送 给 环 上 的 邻居 节点 的 时 候 。 这 样 做 
的 优点 是 降低 了 磁盘 UO. 


在 每 次 更 新 之 后 ， 逆 炉 算法 都 被 引入。 这 会 对 数据 库 进行 校 验 和 ， 并 与 其 他 节点 比 
较 校 验 和 。 如 果 校 验 和 不 同 ， 就 进行 数据 交换 。 这 需要 一 个 时 间 窗 口 来 保证 其 他 市 
点 可 以 有 机 会 得 到 最 近 的 更 新 ， 这 样 系统 就 不 会 总 是 进行 没有 必要 的 逆 炉 操作 。 为 
了 保证 这 个 操作 非常 快 ， 市 点 内 部 需要 保留 一 个 基于 时 间 惟 的 反 向 索引 ， 只 交换 最 
近 的 更 新 。 


在 Cassandra 中 ， 集 群 由 多 个 节点 组 成 ， 其 中 的 一 个 或 多 个 会 作为 某 块 给 定数 据 的 
副本 。 要 读 取 数据 ， 客 户 端 连 接 到 任意 集群 中 的 任意 一 个 节点 即 可 ， 基 于 用 户 指定 
的 一 致 性 级 别 ， 一 定数 量 的 节点 会 被 读 取 。 在 客户 端 指定 的 一 致 性 级 别 没 有 达到 之 
前 ， 读 操作 是 阻塞 的 。 如 果 Cassandra 检测 到 某 些 响应 节点 持 有 的 是 过 时 数据 ， 它 
会 向 用 户 返 回 最 新 的 数据 。 在 返回 之 后 ，Cassandra 会 在 后 台 进 行 一 个 读 修 复 过 程 。 
这 个 操作 会 更 新 过 时 的 数据 。 

这 个 设计 不 仅 在 Cassandra 存在 ， 很 多 键 / 值 存 储 系统 之 中 也 是 如 此 ， 如 Voldemort 
项 目 或 是 Riak 项 目 。 这 被 认为 是 一 个 性 能 改进 ， 因 为 客户 端 不 必 一 直 阻 塞 到 所 有 
市 点 都 被 读 取 的 时 候 ， 读 修复 阶段 的 更 新 数据 任务 会 在 后 台 执行 。 如 果 你 有 很 多 客 
户 端 ， 就 很 有 必要 从 特定 一 组 市 点 读 取 ， 以 确保 至 少 一 个 市 点 会 有 最 新 的 值 。 

如 果 客 户 端 指定 了 弱 一 致 性 级 别 (比如 oNE)， 那 么 读 修 复 会 在 返回 给 客户 端 之 后 的 
后 台 进 行 。 如 果 使 用 了 两 种 更 强 的 一 致 性 级 别 之 一 (QUoRUM 或 ALL), 35415 
在 数据 返回 给 客户 端 之 前 就 进行 了 。 

如 果 一 个 读 操作 发 现 了 同一 时 间 改 的 不 同 值 ，Cassandra 会 直接 使 用 一 个 决胜 机 制 来 
进行 值 的 比较 ， 以 确保 读 修复 不 会 进入 死 循 环 。 这 种 情况 应 该 极 少 出 现 。 























5.5 memtable、 SSTable 和 commit log 


进行 写 操作 的 时 候 ， 数 据 是 直接 写 入 到 commit log 中 的 。commit log 是 Cassandra 
为 了 达到 持久 性 而 引入 的 一 种 错误 恢复 机 制 。 写 操作 只 有 写 入 到 commit log Z € 
认为 是 成 功 的 ， 这样 ， 即 使 数据 还 没有 进入 内 存 存 储 结构 中 (马上 就 要 介绍 到 的 
memtable) ， 也 可 以 进行 数据 恢复 。 


数据 写 入 到 commit log 中 之 后 ， 会 写 入 到 称 为 memtable 的 内 存 数据 结构 之 中 。 当 
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memtable 之 中 存储 的 对 象 数 量 达到 国 值 之 后 ，memtable 会 被 刷 入 磁盘 ， 放 在 一 个 
称 为 SSTable 的 文件 中 。 然 后 ， 创 建 一 个 新 的 memtable， 接 收 数据 。 这 个 刷 写 的 过 
程 是 个 非 阻塞 操作 ， 对 于 一 个 列 族 ， 可 以 有 多 个 memtable， 一 个 是 当前 的 ， 其 他 的 
则 是 等 待 写 和 磁盘 的 。 这 个 过 程 通常 不 会 很 长 ， 除 非 节点 过 载 了 ， 否 则 刷 写 的 过 程 
应 该 会 很 快 。 


每 个 commit log 都 有 一 个 内 部 的 标志 位 ， 用 于 标识 其 是 否 需要 刷 写 。 当 接收 到 一 个 
写 操作 时 ， 写 的 内 容 被 写 和 人 到 commit log 之 中 ， 并 置 标志 位 为 1。 每 个 列 族 只 有 一 
个 标志 位 ， 因 为 一 台 服 务 器 上 ， 只 有 一 个 commit log 最 终 会 被 写 信 。 对 所 有 列 族 
的 全 部 写 操作 都 会 进 到 同一 个 commit log 之 中 来 ， 所 以 这 个 标志 位 用 于 标识 某 个 
commit log 对 于 某 个 特定 的 列 族 是 否 还 包含 没有 被 写 入 的 东西 。 一 旦 memtable 被 正 
确 刷 入 到 磁盘 中 去 ， 对 应 的 commit log 的 标志 位 就 会 置 回 为 0， 这 就 表示 不 存在 需 
要 持久 化 的 数据 了 。 和 一 般 的 日 志文 件 一 样 ，commit log 也 有 一 个 可 配置 的 处 理 国 
值 ， 一 旦 这 个 文件 达到 浆 值 了 ， 日 志 会 被 翻转 ， 所 有 现存 已 使 用 的 标志 位 都 会 被 写 
入 到 磁盘 中 去 。 














SSTable 的 概念 是 从 Google 的 Bigtable 里 借鉴 过 来 的 。 一 旦 memtable 被 刷 写 入 磁 
盘 ， 成 为 一 个 SSTable， 它 就 是 不 可 变 的 了 ， 不 能 被 任何 应 用 所 修改 。 尽 管 SSTable 
是 被 压 紧 的 ， 但 压 紧 操作 只 是 改变 数据 在 磁盘 上 的 表现 形式 。 实 际 上 ， 压 紧 是 进行 
了 归并 排序 的 “归并 ”步骤 ， 将 数据 并 入 新 的 文件 ， 并 删除 旧 文 件 。 











on 
as SSTable 是 有 序 字 符 串 表 (Sorted String Table) 的 缩写 ， 对 于 Cassandra 的 
p^ 具体 实现 来 说 ， 这 有 点 名 不 符 实 ， 因 为 Cassandra 的 数据 不 是 以 字符 串 形 








式 存储 的 。 


每 个 SSTable 有 一 个 关联 的 Bloom filter， 用 以 提高 性 能 (参见 5.8 节 ) 。 


所 有 的 写 操作 是 顺序 进行 的 ， 这 正 是 Cassandra 的 写 操作 性 能 出 众 的 原因 。 在 
Cassandra 之 中 ， 写 一 个 值 不 需要 任何 读 或 者 定位 操作 ， 因 为 所 有 的 写 都 是 以 追加 方 
式 写 入 的 。 这 会 对 磁盘 速度 性 能 有 关键 的 限制 。 压 紧 操 作 定 期 地 重新 组 织 数 据 ， 不 
过 压 紧 操作 同样 也 是 进行 顺序 读 写 。 所 以 ， 通 过 拆 分 ， 我 们 获得 了 很 多 性 能 提升 ， 
写 操作 是 直接 的 追加 写 ， 之 后 的 压 紧 可 以 组 织 数 据 ， 从 而 获得 更 好 的 读 性 能 。 如 果 
Cassandra 只 是 简单 地 直接 在 最 终 的 位 置 上 写 入 数据 ， 那 会 让 客户 端 在 写 操作 时 为 来 
回 寻 道 而 付出 沉重 代价 。 


对 于 读 操 作 ，Cassandra 会 首先 检查 memtable 来 查找 值 ，memtable 是 由 org. apache. 
cassandra.db.Memtable 类 实现 的 。 
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5.6 ”提示 移交 


考虑 如 下 场景 。 一 个 写 请 求 到 达 Cassandra， 但 是 负责 这 部 分 数据 的 节点 却 由 于 网 
络 分 裂 、 硬 件 故 障 或 其 他 原因 而 不 可 用 。 为 了 保证 整个 环 在 这 种 情况 下 的 可 用 性 ， 
Cassandra 实现 了 一 个 称 为 提示 移交 (hinted handoff) 的 机 制 。 可 以 把 一 个 提示 看 做 是 
一 个 小 即时 贴 ， 上 面 记录 着 写 请 求 的 内 容 。 如 果 写 操作 所 属 的 节点 失败 了 ，Cassandra 
接收 到 该 请 求 的 节点 会 创建 一 个 提示 ， 包 含 这 样 一 条 备 忘 信息 :“ 我 有 一 个 给 节点 B 
的 写 请 求 信息 。 这 个 请 求 现在 挂 起 了 ， 等 到 节点 B 回来 的 时 候 请 告知 我 ， 那 时 我 会 把 
写 请 求 送 交 给 它 。” 也 就 是 说 ， 写 操作 的 提示 信息 将 会 从 节点 A 移交 给 节点 B. 


提示 移交 允许 Cassandra 对 于 写 操作 永远 可 用 ， 降 低 离线 节点 恢复 服务 之 后 的 不 一 致 
的 时 间 。 之 前 我 们 讨论 过 一 致 性 级 别 ， 你 可 能 还 记得 ， 我 们 曾经 提 到 过 0.6 版 本 中 引 
入 的 一 致 性 级 别 ANY， 这 个 一 致 性 级 别 意味 着 有 一 个 提示 移交 就 可 以 认为 写 操作 是 成 
功 的 。 也 就 是 说 ， 即 使 只 有 一 个 提示 被 记录 下 来 ， 写 操作 也 就 可 以 认为 是 成 功 了 。 


一 些 对 提示 移交 的 顾虑 ， 在 Cassandra 社区 内 部 就 已 经 提出 过 了 。 起 先 ， 这 似乎 是 一 
个 深思 熟 虚 且 精巧 的 设计 ， 可 以 保证 数据 库 的 持久 性 ， 并 且 ， 因 为 这 种 方法 已 经 在 很 
多 分 布 式 计算 模式 中 出 现 过 ， 比 如 Java 消息 服务 (JMS)， 似 乎 不 会 有 什么 问题 。 在 
具有 持久 性 的 “保障 传递 ”JMS 队列 中 ， 如 果 消 息 无 法 发 送 给 接收 者 ，JMS 会 等 待 一 
个 给 定时 间 ， 然 后 重 传 消息 ， 直 到 消息 被 成 功 接收 。 但 是 在 实际 系统 中 ， 不 论 是 对 于 
IMS 的 可 靠 传输 还 是 对 于 Cassandra 的 提示 移交 ， 都 存在 一 个 问题 : 如 果 节 点 离线 持 
续 一 段 时 间 ， 其 他 节点 上 会 堆积 相当 多 的 提示 信息 。 之 后 当 其 他 节点 发 现 掉 线 节点 重 
新 在 线 的 时 候 ， 请 求 会 如 潮水 般 涌 向 这 个 节点 ， 而 此 时 ， 这 个 节点 本 身 正 处 在 自己 最 
脆弱 的 状态 〈 它 刚刚 从 故障 中 恢复 过 来 ， 正 在 努力 恢复 工作 )。 


作为 对 顾虑 的 回应 ， 现 在 可 以 完全 关闭 提示 移交 ， 或 者 ， 用 一 个 不 那么 极端 的 方法 ， 
降低 提示 移交 消息 相对 于 新 的 写 请 求 的 优先 级 。 





























在 Cassandra 0.6 和 更 早 的 版 本 中 , HintedHandoffManager.sendMessage 
心 。 会 把 一 整 行 读 入 到 内 存 之 中 ， 然 后 把 整 行 信息 在 一 条 消息 中 返回 给 客户 端 。 
而 在 0.7 之 中 ，Cassandra 会 给 被 提示 的 行进 行 分 页 。 对 于 很 宽 的 行 ， 这 会 带 
来 很 多 性 能 改善 。 












































57 E 


在 Cassandra 中 ， 压 紧 操 作用 于 合并 SSTable。 在 压 紧 操 作 过 程 中 ，SSTable 中 的 数 
会 被 合并 : 键 值 进行 合并 ， 列 被 组 合 在 一 起 ， 丢 弃 募 碑 ， 创 建新 的 索引 。 
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压 紧 操 作 是 通过 合并 大 的 累积 文件 而 释放 空间 的 过 程 。 大 致 类 似 于 关系 型 数据 库 里 
的 重建 表 。 不 过 ， 正 如 Stu Hood 所 指出 的 ， 它 在 Cassandra 中 主要 的 不 同 在 于 ， 这 
个 操作 是 完全 透明 的 ， 并 且 在 整个 服务 器 的 生命 周期 中 持续 进行 。 








在 压 紧 操作 中 ， 合 并 后 的 数据 是 有 序 的 ， 对 这 些 有 序 的 数据 会 创建 一 个 新 的 索引 文件 ， 
同时 上 述 这 些 刚 刚 合 并 的 、 有 序 的 、 有 索引 的 数据 会 被 写 入 一 个 单独 的 新 的 SSTable 
之 中 (每 个 SSTable 包含 三 个 文件 : 数据 、 索 引 和 过 滤 程 序 )。 这 个 过 程 由 org. 
apache.cassandra.db.CompactionManager 类 来 管理 ，compactionManager 实 


现 了 一 个 MBean 接口 ， 支 持 内 省 机 制 。 








压 紧 的 另 一 个 重要 功能 是 通过 降低 定位 的 次 数 来 提高 性 能 。 对 于 一 个 给 定 的 键 值 ， 
要 查找 一 列 数据 需要 的 查找 次 数 的 上 限 由 SSTable 的 个 数 决 定 。 如 果 一 个 键 值 经 常 
改动 ， 那 么 可 能 每 个 改动 都 会 刷 写 入 SSTable。 压 紧 这 些 SSTable 可 以 避免 在 查找 
数据 时 被 迫 在 每 个 SSTable 都 查找 一 次 数据 。 




















Cassandra 中 有 多 种 不 同 的 压 紧 操作 。 主 压 紧 的 出 发 原因 有 两 种 : 通过 节点 探测 触 
发 或 是 自动 进行 。 节 点 探测 会 给 被 探测 节点 的 相 邻 节点 发 送 一 个 TreeRequest 消息 。 
当 一 个 节点 收 到 TreeRequest 时 ， 会 立刻 进行 一 次 只 读 压 紧 ， 来 验证 列 族 。 











只 读 压 紧 包 含 如 下 步骤 。 


(1) 获取 列 族 中 的 键 值 分 布 。 

(2) 行 被 加 入 到 验证 器 中 之 后 ， 如 果 列 族 需 要 验证 ， 就 会 创建 Merkle 树 ， 并 广播 到 
周边 节点 。 

(3) Merkle 树 们 被 放 在 一 起 ， 作 为 一 个 Differencers (需要 验证 或 比较 的 树 ) 的 
列表 发 送 。 

(4) 比较 过 程 由 stageManager 类 进行 ， 这 个 类 负责 管理 执行 任务 时 的 并 发 问 
题 。 在 压 紧 时 ，stageManager f H — ^P E Ji Br Ee, "E f JH org. apache. 
cassandra.concurrent.JMXEnabledThreadPoolExecutor 类 ， 在 一 个 单线 


程 内 执行 压 紧 程 序 ， 并 使 这 个 操作 可 以 作为 一 个 MBean， 支 持 内 省 机 制 。 


你 可 以 通过 降低 压 紧 线 程 的 优先 级 来 提高 整体 性 能 。 这 可 以 使 用 如 下 命令 行 参数 来 
设置 : 


-Dcassandra.compaction.priority-1 


当然 ， 这 会 影响 CPU 的 使 用 率 ， 而 非 IO 的 。 





5.8 Bloom filter 


Bloom filter 是 一 种 提升 性 能 的 手段 ， 得 名 于 其 发 明 者 Burton Bloom, Bloom filter 
是 一 种 用 于 判断 一 个 元 素 是 否 是 一 个 集合 的 成 员 的 超 快速 、 但 不 确定 的 算法 。 称 
其 为 不 确定 性 方法 是 因为 Bloom filter 可 能 会 得 到 一 个 “ 假 阳 性 ”结果 ， 但 是 它 不 
会 得 到 “ 假 阴 性 ”的 结果 ， 也 就 是 说 判断 为 属于 不 一 定 确实 属于 ， 但 判断 为 不 属于 
则 一 定 不 属于 。Bloom filter 将 数据 集 里 的 值 映射 为 一 个 位 数组 ， 并 将 一 个 大 数据 
集 凝 炼 为 一 个 摘要 字符 串 。 按 照 定义 ， 摘 要 字符 串 会 占用 远 少 于 原始 数据 的 内 存 空 
iH], Bloom filter 位 于 内 存 之 中 ， 这 样 可 以 减少 查找 键 值 时 的 磁盘 访问 ， 从 而 改善 性 
能 。 磁 盘 访 问 通常 会 比 内 存 访问 慢 很 多 。 所 以 ，Bloom filter 可 以 看 做 是 一 类 特殊 的 
缓存 。 当 进行 查询 时 ， 在 访问 磁盘 之 前 首先 检查 Bloom filter。 因 为 不 会 有 假 阴 性 结 
果 ， 所 以 ， 如 果 Bloom filter 显示 元 素 不 存在 就 是 真 的 不 存在 。 但 如 果 Bloom filter 
显示 这 个 元 素 在 集合 之 中 ， 那 就 可 以 进一步 去 访问 磁盘 ， 确 认 是 否 存在 了 。 


























Nodetool 将 会 添加 一 项 新 的 JMX MBean 特性 ， 人 允许 你 查看 Bloom filter 返回 了 多 少 
次 假 阳 性 结果 ， 这 个 操作 称 为 getBloomFilterFalsePositives. 


Apache Hadoop, Google Bigtable 和 Squid 缓存 服务 器 也 使 用 了 Bloom filter 了 。 





你 可 能 了 解 关系 型 世界 中 的 “ 软 删 除 ” 这 个 概念 。 软 删除 是 指 ， 应 用 并 不 直接 执行 
SQL 的 delete 语句 ， 而 是 使 用 一 个 update 语句， 把 某 列 的 值 变 为 “已 删除 ”之 类 的 
内 容 。 有 了 时， 程序 员 会 使 用 这 种 方法 来 支持 审计 等 用 途 。 


在 Cassandra 之 中 ， 有 个 与 此 类 似 的 概念 ， 称 为 墓碑 。 这 就 是 所 有 删除 操作 的 做 法 ， 
因而 也 是 自动 为 你 执行 的 。 当 你 执行 一 个 删除 操作 时 ， 数 据 并 不 会 被 立刻 删除 。 相 
反 ， 会 被 视 为 一 个 更 新 操作 ， 在 相应 的 值 上 放 一 个 莫 碑 。 墓 碑 是 一 个 删除 标记 ， 当 
执行 压 紧 时 ， 比 墓碑 更 老 的 内 容 都 会 被 清理 掉 。 


有 一 个 相关 的 设置 ， 称 为 Garbage Collection Grace Seconds (垃圾 回收 时 延 )。 这 
个 时 间 是 服务 器 对 一 个 墓碑 进行 垃圾 回收 之 前 的 等 待 的 时 间 。 这 个 时 间 上 默认 是 
864000 秒 ， 也 就 是 10 R, Cassandra 会 一 直 跟 踪 墓 碑 的 年 龄 ， 一 旦 某 个 墓碑 的 寿命 
比 GcGraceSeconds 更 长 了 ， 就 会 回收 它 。 这 个 时 延 的 设计 目的 是 留 下 足够 长 的 时 
间 ， 以 便于 恢复 数据 ， 如 果 一 个 节点 宕 机 超过 这 个 时 间 ， 那 么 它 也 会 被 认为 是 发 生 
故障 了 ， 应 该 被 替换 掉 。 
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在 Cassandra 0.7 中 ， 这 个 设置 是 对 每 个 列 族 都 可 配置 的 (曾经 是 整个 keyspace 的 一 
个 设置 项 ) 。 


5.10 分 阶段 事件 驱动 架构 


Cassandra 实现 了 一 个 分 阶段 事件 驱动 架构 (SEDA), SEDA 是 一 种 为 高 并 发 互联 网 
服务 设计 的 通用 架构 ， 由 Matt Welsh, David Culler 和 Eric Brewer (就 是 我 们 之 前 
提 到 的 CAP 理论 的 提出 者 ) 在 2001 年 的 一 篇 题 为 “SEDA: 一 种 良 态 、 可 伸缩 的 
互联 网 服务 架构 ”的 论文 中 提出 。 








Aa 


原始 论文 可 以 在 http:Wwww.eecs.harvard.edu/~mdw/proj/seda 得 到 。 








在 一 个 典型 的 应 用 中 ， 一 个 单独 的 任务 单位 经 常会 在 一 个 线程 内 来 完成 。 比 如 一 个 
写 操作 ， 会 在 一 个 线程 里 ， 有 始 有 终 。 但 在 Cassandra 中 却 有 所 不 同 : 它 的 并 发 模 
型 是 基于 SEDA 的 ， 所 以 ， 一 个 工作 可 以 从 一 个 线程 开始 ， 之 后 移交 给 另 一 个 线 
程 ， 这 个 线程 还 可 能 会 将 它 再 交 给 下 一 个 线程 。 但 并 不 是 当前 线程 来 决定 是 否 把 工 
作 移交 给 下 一 个 线程 。 一 个 操作 会 细 分 为 不 同 阶段 ， 与 阶段 关联 的 线程 池 (实际 上 
是 java.util.concurrent .ExecutorService) 来 决定 执行 的 任务 。 阶 段 是 任 
务 的 最 基本 的 单位 ， 一 个 操作 内 部 可 能 会 有 不 同 阶 段 之 间 的 状态 迁移 。 因 为 每 个 阶 
段 由 不 同 的 线程 池 处 理 ，Cassandra 可 以 因此 获得 显著 的 性 能 收益 。SEDA 设计 也 意 
味 着 Cassandra 能 够 更 好 地 管理 其 内 部 的 资源 ， 因 为 不 同 的 操作 可 能 都 需要 磁盘 IO 
或 者 可 能 是 受 限 于 CPU， 抑 或 是 需要 网 络 操作 等 ， 不 同 的 线程 池 可 以 根据 可 用 资源 
来 管理 任务 的 执行 。 

一 个 阶段 包含 一 个 输入 事件 队列 、 一 个 事件 处 理 程序 和 一 个 相关 联 的 线程 地。 这 些 
阶段 都 由 一 个 控制 器 来 控制 ， 控 制 器 负责 进行 调度 和 线程 的 分 配 。Cassandra 使 用 
java.util.concurrent.ExecutorService 线程 池 来 实现 这 个 并 发 模型 。 想 要 
T 解 具 体 的 实现 ， 可 以 看 org.apache.cassandra.concurrent.StageManager 
这 个 类 。 

Cassandra 中 ， 作 为 阶段 的 操作 有 : 


。 读 











。 Mutation 
* Gossip 

。 响应 
XU 
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。 附 在 均衡 

。 迁移 

。 流 

一 些 新 增加 的 操作 也 实现 为 阶段 。 一 些 阶 段 针 对 于 memtable 的 一 些 单元 操作 (在 
ColumnFamilyStore 类 中 )。storageService 里 的 一 致 性 管理 器 也 是 一 个 阶段 。 


阶段 实现 了 iverbHandler 接口 ， 支 持 给 定 动词 的 功能 。 因 为 mutation 的 概念 实现 
为 一 个 阶段 ， 所 以 它 既 可 以 用 作 添 加 操作 ， 也 可 以 用 作 删 除 操作 。 


SEDA 是 一 个 很 强大 的 架构 。 因 为 它 是 事件 驱动 的 ， 正 如 其 名 ， 它 可 以 很 好 的 应 付 
并 发 ， 而 且 没 有 什么 耦合 性 。 


5.11 管理 器 与 服务 


Cassandra 的 基本 内 部 控制 机 制 由 一 组 类 组 成 。 这 里 会 简单 介绍 一 下 这 些 类 ， 来 帮助 读 
者 了 解 这 其 中 比较 重要 的 一 些 。 第 一 个 要 谈 到 的 大 概 就 是 org.apache.cassandra. 
thrift.CassandraServer 类 。 这 个 类 实现 了 对 Thrift 调用 接口 的 呼叫 ， 代 理 了 大 
部 分 对 org.apache.cassandra.service.StorageProxy 的 查询 操作 。 





5.11.1 Cassandra 守 护 进程 


org.apache.cassandra.service.CassandraDaemon 接口 对 应 着 一 个 节点 上 
的 Cassandra 服务 的 整个 生命 周期 。 它 包含 了 你 能 想到 的 各 种 典型 的 生命 周期 操作 : 


start, stop, activate, deactivate 以 及 destroy. 


5.11.2 ”存储 服务 


Cassandra 数据 库 服务 对 应 于 org.apache.cassandra.service.StorageService 
类 。 存 储 服务 持 有 闻 点 的 令 牌 ， 这 表征 了 节点 应 该 负责 的 数据 范围 。 


当 服 务 器 启动 时 ， 会 调用 这 个 类 的 initserver 方法 ， 在 这 里 注册 SEDA 操作 管理 
器 、 决 定 服务 器 的 状态 (比如 自 举 是 否 成 功 、 本 节点 的 分 区 器 是 什么 )， 并 在 JMX 
服务 器 把 自己 注册 为 一 个 MBean。 


5.11.3 ”消息 服务 
org.apache.cassandra.net.MessagingService 的 用 途 是 创建 用 于 消息 交换 的 
套 接 口 监听 器 的 ， 节 点 的 进出 消息 都 会 经 过 这 个 服务 。 MessagingService.listen 

















Cassandra 的 架构 | 93 


方法 会 创建 一 个 线程 。 每 个 到 达 的 连接 接 下 来 都 会 被 转交 到 Executorservice 线程 
w, (EH org.apache.cassandra.net.IncomingTcpConnection (派生 自 Thread 
的 类 ) 来 解码 消息 。 消 息 会 首先 进行 验证 ， 之 后 判断 是 否 是 一 条 流 消息 。 消 息 流 是 
Cassandra 用 于 在 市 点 间 传 送 SSTable 文件 段 的 优化 方法 ， 除 此 之 外 的 所 有 其 他 通信 都 
是 序列 化 的 消息 。 如 果 是 流 消息 ， 消 息 会 交 给 IncomingStreamReader 来 处 理 ， 否 
则 就 由 MessagingService 的 反 序 列 化 执行 器 来 处 理 ， 它 是 以 一 个 执行 了 Runnable 
的 任务 的 形式 传递 的 。 因 为 这 个 服务 密集 使 用 了 “阶段 "， 而 且 使 用 MBean 封装 了 它 
维护 的 线程 池 ， 所 以 ， 可 以 通过 JMX 接口 来 查看 很 多 关于 这 个 服务 如 何 运 行 的 信息 
(如 读 操 作 是 否 得 到 支持 等 )。 























5.11.4 提示 移交 管理 器 

正如 它 的 名 字 ， org.apache.cassandra.db.HintedHandoffManager 是 内 部 用 
于 管理 提示 移交 的 类 。 它 也 维护 了 一 个 线程 池 ， 同 样 可 以 通过 JMX 访问 HINTED- 
HANDOFF-POOL 来 监听 。 

















5.12 小结 


本 章 中 ， 我 们 学 习 了 Cassandra 结构 的 主要 支柱 ， 包 括 gossip. R. JE WC pq 
测 ， 以 及 如 何 使 用 分 阶段 事件 驱动 架构 来 提升 性 能 。 我 们 还 看 了 Cassandra 内 部 是 
如 何 执行 不 同 的 操作 的 ， 比 如 墓碑 和 读 人 和 修复。 最后， 我 们 介绍 了 一 些 主要 的 类 和 接 
口 ， 如 果 你 想 深 入 研究 代码 ， 本 章 也 指出 了 一 些 关 键 点 。 
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配置 Cassandra 





在 本 章 里 ， 我 们 来 看 看 如 何 配置 Cassandra。 我 们 将 逐一 地 创建 keyspace、 设 置 副本 
数 ， 并 使 用 合适 的 副本 放置 策略 。 





Cassandra 无 须 配置 即 可 使 用 ， 你 可 以 直接 下 载 、 解 压 ， 然 后 运行 可 执行 文件 ， 以 默 
认 配 置 启动 服务 器 。 


本 章 中 ， 我 们 将 聚焦 Cassandra 是 如 何 影响 集群 中 的 节点 的 行为 的 ， 包 括 性 能 和 各 
种 元 操作 ， 如 副本 数 、 分 区 和 Snitch。 人 性 能 调 优 是 另 一 个 单独 的 话题 ， 将 在 第 11 章 
单独 介绍 。 

















Cassandra 的 开发 进度 很 快 ， 会 不 断 地 发 生变 化 。 这 里 ， 我 会 尽力 跟 上 版 本 
的 变化 。 








6.1 keyspace 


在 老 版 本 的 Cassandra 中 ，keyspace 是 直接 定义 在 XML 配置 文件 中 的 ， 但 在 0.7 版 
本 里 ， 你 可 以 使 用 API 来 动态 创建 keyspace 和 列 族 。 


在 Cassandra 0.6 或 更 早 的 版 本 里 ， 集 群 和 列 族 的 配置 位 于 一 个 称 为 storage-conf.xml 的 
文件 中 。 之 后 有 一 个 从 XML 到 YAML 的 过 渡 转 换 ， 所 以 可 以 看 到 storage-conf.xml 
和 cassandra.yaml 两 个 文件 的 相关 资料 。0.7 引入 了 动态 加 载 ， 所 有 对 keyspace 和 列 族 
定义 的 创建 和 变更 都 可 以 通过 Thrift API 和 命令 行 接口 实现 ， 不 必 使 用 配置 文件 。 

从 Cassandra 0.7 开始 ， 可 以 使 用 API 操作 来 修改 schema 了， 和 SQL 的 数据 定义 语 


EE 


言 (DDL) 的 语法 很 类 似 ， 比 如 CREATE TABLE 或 ALTER TABLE。 
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一 旦 schema 加 载 到 system keyspace (Cassandra 用 于 存储 集群 元 数据 的 内 部 keyspace) 
之 后 ， 对 schema 所 进行 的 任何 变更 都 必须 使 用 Thrift 接口 进行 。 这 些 操作 都 以 
“system” 为 前 级 。 提 醒 你 ， 修 改 system keyspace 属于 影响 很 大 的 schema 修改 操作 。 


* system add keyspace 
创建 一 个 keyspace。 





* system r ename keyspace 
对 一 个 keyspace 进行 快照 ， 然 后 修改 它 的 名 字 。 这 个 方法 在 执行 完成 之 前 会 一 
直 阻 塞 住 。 

* system drop keyspace 对 一 个 keyspace 
进行 快照 之 后 ， 完 全 删除 这 个 keyspace。 





* system add column family 


创建 一 个 列 族 。 





* system drop column family 


对 一 个 列 族 进行 快照 ， 然 后 删除 这 个 列 族 。 


* system rename column family 


对 一 个 列 族 进 行 快照 ， 然 后 改名 。 注 意 ， 这 个 操作 在 完成 之 前 也 会 一 直 阻 塞 住 。 


例如 ， 使 用 0.7 对 命令 行 创建 一 个 新 的 keyspace。 可 以 启动 如 下 命令 行 工具 : 


T 





[defaultGunknown] connect 127.0.0.1/9160 

Connected to: "Test Cluster" on 127.0.0.1/9160 

[defaulteunknown] create keyspace Testl with replication factor-0 
610d06ed-a8d8-11df-93db-e700f669bcfc 

[defaulteunknown] describe keyspace Testi 

Keyspace: Testl 


defaulteunknown 的 写法 和 MySQL 很 类 似 ， 使 用 鉴 权 的 用 户 名 (如 果 需 要 ) 和 
当前 使 用 的 keyspace 名 作为 提示 符 。 然 后 可 以 使 用 use keyspace 命令 来 切换 不 同 的 
keyspace: 


use «keyspace» [«username» 'password'] 


现在 ， 我 们 切换 到 在 命令 行 上 刚刚 创建 的 keyspace， 可 以 在 其 中 加 入 列 族 : 





[defaulteTesti] create column family MyCF 
4105a82f-ad51-11df-93db-e700f669bcfc 


在 创建 keyspace 或 列 族 的 时 候 ， 可 以 使 用 with 标记 来 指定 其 他 附加 的 设置 ， 并 使 
用 and 标记 来 进行 更 多 设置 : 
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[defaulteMyKeyspace] create keyspace NewKs with replication factor-1 


其 他 的 可 以 使 用 的 命令 行 命令 还 包括 : 
drop keyspace <keyspace> 
drop column family <cf> 


rename keyspace <keyspace> <keyspace new name> 
rename column family <cf> <new name> 


这 些 工作 还 可 以 通过 API 调用 来 进行 ， 如 例 6-1 所 示 。 
例 6-1: 使 用 API 来 动态 创建 keyspace 和 列 族 





package com.cassandraguide.config; 


import java.util.ArrayList; 
import java.util.List; 


import org.apache.cassandra.thrift.Cassandra; 
import org.apache.cassandra.thrift.CfDef; 

import org.apache.cassandra.thrift.KsDef; 

import org.apache.thrift.protocol.TBinaryProtocol; 
import org.apache.thrift.protocol.TProtocol; 





import org.apache.thrift.transport.TFramedTransport; 


import org.apache.thrift.transport.TSocket; 
import org.apache.thrift.transport.TTransport; 





public class ConfigAPI ( 


private static final String HOST - "localhost"; 
private static final int PORT - 9160; 





/** 
* 创建 新 的 keyspace 和 列 族 。 
*f 
public static void main(String... args) throws 
String keyspaceName - "DynamicKeyspace"; 


System.out.println("Creating new keyspace: 





// 创建 Keyspace 

KsDef k = new KsDef(); 
k.setName (keyspaceName) ; 
k.setReplication factor(1); 


k.setStrategy class("org.apache.cassandra.locator.RackUnawareSt- 


rategy"); 





Exception { 


"+ keyspaceName) ; 


List«CfDef» cfDefs = new ArrayList«CfDef»(); 


k.setCf defs(cfDefs); 


/ / 连接 服务 器 


TTransport tr = new TSocket(HOST, PORT); 





TProtocol proto = new TBinaryProtocol (tf); 


TFramedTransport tf - new TFramedTransport (tr); 


Cassandra.Client client - new Cassandra.Client (proto); 


tr.open(); 
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/ / 添加 新 的 keyspace 
client.system add keyspace(k); 
System.out.println("Added keyspace: "+ keyspaceName); 
) 
) 


要 创建 一 个 keyspace， 所 需要 做 的 就 是 给 定名 称 、 指 定 副本 放置 策略 (会 在 6.3 市 
中 介绍 ) 以 及 设 定 副本 因子 ， 然 后 可 以 按照 你 的 设计 ， 创 建 任意 多 个 列 族 ， 仅 此 而 
已 。 现 在 ， 已 经 是 一 切 就 绪 ， 可 以 向 新 列 族 MycF 里 插入 数据 了 。 








Ya 


为 了 明确 起 见 ， 所 以 展示 了 语法 。 


wt 如 果 你 不 指定 ，Cassandra 会 提供 一 个 默认 的 副本 策略 。 这 个 例子 里 ， 我 是 
AS 
4 


6.1.1 创建 列 族 
可 以 使 用 命令 行 或 是 API 来 创建 一 个 列 族 。 这 些 是 创建 列 族 时 可 以 指定 的 选项 。 


column type 


标准 列 族 (Standard) 或 是 超级 列 族 (super)。 


clock type 

唯一 的 合法 值 就 是 Timestampo。 

comparator 

合法 选项 包括 AsciiType, BytesType, LexicalUUIDType, LongType, TimeUUIDType 
fll UTF8Type. 

subcomparator 

当 comlumn type 是 Super 时 ， 子 列 使 用 的 比较 器 。 合 法 值 的 规定 和 比较 器 是 
一 样 的 。 

reconciler 

当 列 的 版 本 发 生 冲 突 的 时 候 ， 进 行 协 调 的 类 的 名 字 。 目 前 唯一 合法 的 值 是 


Timestamp. 


comment 

字符 串 形 式 的 人 类 可 读 的 任意 注释 内 容 。 
rows cached 

要 缓存 的 行 数 量 。 


preload row cache 


把 这 个 选项 设置 为 true 可 以 自动 加 载 行 缓存 。 
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* key cache size 
放 入 缓存 中 的 键 值 数 量 。 
* read repair chance 


合法 值 区 间 从 0.0 到 1.0, 
这 里 有 一 个 例子 : 


[defaulteKeyspacel] create column family MyRadCF 
with column type-'Standard' and comparator-'UTF8Type' and rows 
cached-40000 3ae948aa-ael4-11df-a254-e700f669bcfc 


6.1.2 JAO.63E 12 8JO.7 


放 在 conf 目录 里 的 cassandra.yaml 文件 是 用 来 替换 之 前 的 storage-conf.xml 的 ， 后 
者 是 0.6 和 之 前 版 本 的 配置 文件 。 不 过 ，YAML 文件 仅仅 是 用 来 帮助 用 户 把 配置 文 
件 从 XML 升级 到 YAML 的 。 也 可 以 如 之 前 的 例子 所 示 的 那样 ， 通 过 Thrift API, 
使 用 带 有 system 前 绥 的 调用 来 配置 keyspace 和 列 族 。 


如 果 有 一 个 已 有 的 0.6 版 本 的 storage-conf.xml 文件 ， 首 先 要 做 的 就 是 使 用 bin/config- 
converter 工具 ， 将 它 转 化 成 YAML 格式 ， 它 会 为 你 生成 一 个 cassandra.yaml 文件 。 在 
org.apache.cassandra.service.StorageServiceMBean 之 中 ， 有 一 个 通过 
JMX 输出 的 操作 ， 称 为 1oadschemaFromYAML， 通 过 这 个 操作 可 以 强制 Cassandra 
重新 加 载 种 子 节 点 中 的 cassandra.yaml 文件 ， 让 schema 的 改动 生效 。 集 群 中 的 新 节 
点 会 在 启动 时 获得 schema 的 更 新 。 这 里 ， 种 子 节点 并 没有 什么 特殊 的 。 你 可 以 对 
任何 节点 运行 这 个 方法 〈 虽 然 并 不 推荐 对 多 个 节点 运行 这 个 方法 )， 所 有 节点 都 将 
会 获得 schema 更 新 ， 并 通过 gossip 来 传播 schema 的 变化 。 将 定义 信息 装 入 system 
keyspace 是 个 一 次 性 操作 ， 不 需要 在 运行 这 个 命令 之 后 再 度 修 改 这 个 YAML 文件 
了 。 后 续 的 操作 ， 将 使 用 API 或 是 命令 行 接口 来 进行 。 一 旦 版 本 迁移 完成 ， 这 个 操 
作 就 被 弃 用 了 。 

尽管 对 于 测试 来 说 ， 使 用 默认 设置 会 很 简单 ， 还 是 让 我 们 来 研究 一 下 如 何 设置 副 
本 放置 策略 、 副 本 因子 和 Endpoint Snitch。 这 些 都 是 keyspace 内 的 设置 ， 不 同 的 
keyspace 可 以 各 不 相同 。 


6.2 副本 

集群 中 的 节点 越 多 ， 副 本 放置 策略 也 就 越 重 要 。 在 Cassandra 中 ， 节 点 (node) 这 
个 名 词 使 用 得 非常 广泛 ， 是 指 一 个 运行 着 Cassandra 软件 的 服务 器 ， 隶 属于 包含 一 
个 或 多 个 Cassandra 服务 器 的 环 。 
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fg * Cassandra 节点 都 是 某 些 东 西 的 一 个 副本 。 对 于 一 个 给 定 的 键 值 区 间 ， 有 些 
Cassandra 节点 可 能 没有 这 个 区 间 的 副本 。 如 果 副 本 因子 设置 为 1， 那 么 写 操作 将 只 
写 到 一 个 节点 上 。 如 果 这 个 节点 宕 机 了 ， 那 么 存储 在 这 个 节点 上 的 数据 就 不 可 用 了 。 
而 如 果 把 副本 因子 设置 成 2， 那 么 在 每 次 写 操作 中 ， 集 群 中 的 两 个 节点 将 得 到 数据 ， 
它们 互 为 副本 。 总 之 ， 如 果 副 本 因子 是 N， 那 么 每 个 节点 将 会 作为 N 个 区 间 的 副 
本 ， 即 使 N 是 1。 








一 个 Cassandra 集群 ， 或 是 说 一 组 主机 ， 通 第 被 认为 是 一 个 环 ， 原 因 就 在 这 里 揭 
晓 。 每 个 环 上 的 节点 都 有 个 单一 、 唯 一 的 令 牌 (token) 。 每 个 节点 会 声明 对 一 个 区 
间 的 值 的 所 有 权 ， 这 个 范围 从 它 的 令 牌 直到 前 一 个 节点 的 令 牌 。 区 间 的 定义 位 于 
org.apache.cassandra.dht.Range 类 中 。 令 牌 的 形式 依赖 于 你 所 使 用 的 分 区 器 
(partitioner， 更 多 关于 分 区 器 的 信息 可 以 参考 6.5 43), 











Cassandra 中 创建 一 个 副本 的 时 候 ， 第 一 个 副本 总 位 于 那个 拥有 所 在 键 值 区 间 令 牌 的 
节点 上 。 所 有 其 他 副本 的 分 布 则 基于 副本 策略 的 配置 ， 现 在 我 们 就 来 看 看 。 


6.3 副本 放置 策略 

简单 地 说 ， 对 于 配置 文件 来 说 ， 要 规定 一 个 副本 放置 策略 ， 只 要 提供 一 个 Java 类 
的 名 字 即 可 ， 这 个 类 需要 派生 自 org.apache.cassandra.locator.Abstract- 
ReplicationStrategy 类 。 配 置 文件 中 的 这 个 设置 用 于 配置 节点 选择 器 的 工作 。 
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要 确定 副本 放置 的 位 置 ，Cassandra 使 用 了 “四 人 帮 ” 的 策略 (Strategy) 
模式 。 策 略 是 一 个 以 通用 抽象 类 形式 出 现 的 框架 ， 人 允许 使 用 一 个 算法 的 不 
同 的 实现 (不 同 的 策略 来 完成 同样 的 工作 ) 。 每 个 算法 实现 都 封装 在 一 个 单 
独 的 类 里 ， 实 现 同 一 个 接口 。 所 以 ， 你 也 可 以 在 同一 个 框架 之 内 来 提供 算 
法 的 不 同 实现 ， 这 些 算法 是 可 以 在 运行 时 替换 的 。 客 户 端 无 须 考虑 实用 的 
策略 。 最 常见 的 一 个 策略 模式 的 例子 是 排序 。 考 虑 一 个 只 有 一 个 排序 操作 
的 排序 策略 接口 和 各 种 不 同 的 排序 算法 实现 ， 如 快速 排序 、 归 并 排序 等 。 
每 种 排序 算法 的 实现 都 各 不 相同 ， 选 择 取决 于 你 的 需求 。 















































副本 放置 策略 接口 提供 了 11 个 公开 方法 需要 实现 ， 如 果 你 的 策略 可 以 直接 使 用 抽象 
父 类 中 的 一 些 方法 实现 的 话 ， 也 可 以 只 覆盖 你 需要 的 方法 。 当 然 ， 你 不 必 自 己 实 现 
这 些 策 略 。Cassandra 已 经 提供 了 三 个 现成 的 实现 ， 可 以 直接 使 用 : 机 架 感 知 策略 、 
机 架 无 关 策略 和 数据 中 心 分 片 策 略 。 


选择 合适 的 策略 非常 重要 ， 因 为 策略 决定 了 每 个 节点 负责 的 键 值 范围 。 这 意味 着 你 











要 决定 哪个 节点 应 该 接收 哪些 写 操作 ， 这 对 于 不 同 场景 下 的 效率 会 带 来 巨大 影响 。 
如 果 设 置 集群 时 把 所 有 写 操 作 都 送 到 两 个 远 隔 重 祥 的 数据 中 心 ， 一 个 在 澳大利亚 ， 
另 一 个 在 弗吉尼亚 ， 那 么 你 将 看 到 性 能 会 急剧 下 降 。 不 同 的 可 置换 性 策略 给 了 你 很 
大 的 灵活 性 ， 你 可 以 根据 共 体 的 网 络 拓扑 来 进行 调 优 。 





第 一 个 副本 总 会 写 到 拥有 这 一 键 值 区 间 令 牌 的 节点 ， 但 其 他 副本 的 位 置 则 依赖 于 你 
使 用 的 副本 放置 策略 。 





LAM 
pi 在 我 写作 本 章 的 时 候 ， 这 些 策略 的 名 字 发 生 了 一 些 变化 。0.7 版 本 中 
wx 的 名 字 将 会 是 简单 策略 Simplestrategy (之 前 称 为 机 架 无 关 策 略 




















RackUnawareStrategy), W 2& 4n dh R W& oldNetworkTopology- 
Strategy (之 前 称 为 机 架 感知 策略 RackawareSstrategy)， 以 及 网 络 
拓扑 策略 NetworkTopologyStrategy (之 前 称 为 跨 数 据 中 心 分 片 策略 


DatacenterShardStrategy) o 





6.3.1 简单 策略 
简单 策略 是 机 架 无 关 策 略 的 新 名 字 。 


配置 文件 中 , 默认 使 用 的 策略 是 org.apache.cassandra.locator.RackUnaware- 
strategy。 这 个 策略 仅仅 覆盖 了 抽象 父 类 的 calculateNaturalEndpoints 方法 。 
这 个 策略 在 一 个 数据 中 心 内 部 放置 副本 ， 并 不 感知 副本 放置 的 数据 中 心 与 机 架 。 这 意 
味 着 这 种 实现 在 理论 上 会 很 快 ， 但 如 果 副 本 放置 的 下 一 个 节点 位 于 其 他 机 架 上 的 话 ， 
也 不 会 比 其 他 策略 快 。 这 个 策略 如 图 6-1 所 示 。 











数据 中 心 2 














图 6-1: 简单 策略 在 一 个 数据 中 心 内 部 放置 副本 ， 与 拓扑 无 关 
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这 里 ， 实 际 上 是 环 上 的 后 N 个 节点 被 选择 存放 副本 ， 这 个 策略 并 不 了 解数 据 中 心 相 
关 信息 。 图 中 画 出 了 第 二 个 数据 中 心 ， 可 以 看 到 ， 这 种 策略 完全 没有 意识 到 多 个 数 
据 中 心 的 存在 。 


6.3.2 ” 旧 网 络 拓扑 策略 


Cassandra 提供 的 第 二 个 可 用 副本 放置 策略 是 org.apache.cassandra.locator. 
RackAwareStrategy, 现在 称 为 旧 网 络 拓扑 策略 ， 主要 用 于 将 副本 分 布 到 同一 个 
数据 中 心 的 不 同 机 架 之 上 。 和 RackUnawarestrategy 一 样 ， 这 个 策略 也 只 覆盖 了 
抽象 父 类 的 calculateNaturalEndpoints 方法 。 这 个 类 如 其 原始 名 称 所 说 的 那 
样 ， 可 以 感知 到 数据 中 心中 的 机 架 位 置 。 


假设 你 有 DC1 和 DC2 两 个 数据 中 心 ， 里 面 有 一 组 Cassandra 服务 器 。 使 用 这 个 策略 
会 将 一 些 副本 放 在 DCI 的 不 同 机 架 上 ， 还 会 确保 有 一 个 副本 放 在 DC2。 机 架 感 知 
策略 的 目标 应 用 场景 是 ， 你 的 Cassandra 集群 节点 分 布 在 两 个 数据 中 心 之 中 ， 并 且 
使 用 副本 因子 3。 这 个 策略 如 图 6-2 所 示 。 


这 个 策略 通过 牺牲 了 一 定 的 时 延 特性 来 换取 高 可 用 性 ， 因 为 当 与 其 他 数据 中 心 的 布 
点 进行 通信 的 时 候 会 带 来 更 高 的 时 延 。 如 果 Cassandra 就 在 一 个 数据 中 心里 ， 没 有 
必要 使 用 机 架 感知 策略 。 不 过 ，Cassandra 为 运行 在 不 同 数据 中 心 进行 了 优化 ， 通 过 
多 数据 中 心 获 得 更 高 的 可 用 性 也 许 对 你 是 非常 重要 的 。 所 以 如 果 Cassandra 分 布 在 
多 个 数据 中 心 ， 可 以 考虑 使 用 这 个 策略 。 















































图 6-2. 旧 网 络 拓扑 策略 把 第 二 个 副本 放 在 另 一 个 数据 中 心 ， 然 后 把 其 他 副本 放 到 本 数据 中 
心 的 不 同 机 架 


如 果 你 使 用 机 架 感 知 策略 ， 必 须 使 用 机 架 感知 Snitch。Snitch 在 6.6 节 介 绍 。 








6.3.3 网 络 拓扑 策略 


相对 于 机 架 感知 策略 (RackAwareStrategy), Cassandra 0.7 中 包含 的 网 络 拓 扑 策 
略 允 许 你 更 加 次 度 地 定制 如 何 将 副本 分 布 到 不 同 数 据 中 心 。 要 使 用 这 个 策略 ， 需 要 
提供 一 个 参数 来 指定 每 个 数据 中 心 的 副本 放置 策略 。 这 个 文件 会 被 org.apache. 
cassandra.locator.DataCenterShardStrategy 类 读 取 并 和 运行， 这样 ， 拓 扑 的 
设置 就 更 加 灵活 了 。 数 据 中 心 分 斤 策 略 如 图 6-3 所 示 。 


这 个 策略 曾经 使 用 过 一 个 称 为 datacenter.properties 的 文件 。 但 在 0.7 当中 ， 这 些 原 
数据 会 直接 附加 到 keyspace， 并 做 为 一 个 配置 选项 映射 。 























图 6-3: 按照 用 户 指定 的 方式 ， 网 络 拓扑 策略 把 一 些 数 据 放 在 另 一 个 数据 中 心 ， 把 剩 下 的 副 
本 放 在 第 一 个 数据 中 心 的 其 他 机 架 上 


6.4 副本 因子 

副本 因子 (replication factor) 决定 了 数据 将 在 Cassandra 集群 中 存放 多 少 个 副本 ， 
由 replication factor 配置 项 决定 。 

一 个 直观 的 感觉 好 象 是 ， 集 群 中 布点 越 多 ， 副 本 因子 就 应 该 设置 得 更 高 。 但 是 ， 你 
不 能 真 的 这 么 做 ， 相 反 ， 要 根据 所 需要 的 服务 级 别 需 求 来 设置 副本 因子 。 

当 副 本 因子 为 1 的 时 候 ， 数 据 在 集群 中 只 存放 在 一 个 节点 上 。 如 果 这 个 节点 掉 线 的 
话 ， 数 据 也 就 不 可 用 了 。 这 也 意味 着 Cassansra 需要 做 更 多 的 节点 协调 工作 ， 如 果 
某 个 给 定 键 值 的 所 有 数据 都 放 在 节点 B 上 ， 那 么 到 达 节 点 A 的 每 个 对 于 这 个 键 值 的 
客户 端 请 求 都 需要 转发 过 去 。 


你 也 不 能 设置 比 市 点 数 更 多 的 副本 因子 值 ， 因 为 这 没有 任何 意义 。 实 际 上 ， 不 应 该 
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通过 这 个 值 来 调节 Cassandra 的 一 致 性 。 只 要 读 副 本 数 与 写 副 本 数 之 和 大 于 副本 因 
子 ，Cassandra 就 能 够 达到 高 一 致 性 。 


所 以 ， 如 果 你 有 一 个 10 个 节点 的 集群 ， 最 大 能 设置 的 副本 因子 就 是 10， 但 不 应 该 
这 么 做 ， 这 样 就 让 Cassandra 无 从 施展 自己 的 长 处 ， 也 影响 了 系统 的 可 用 性 ， 因 为 
即使 有 1 个 节点 掉 线 ， 也 无 法 达到 高 一 致 性 。 相 反 ， 正 确 的 用 法 是 将 副本 因子 设 为 
一 个 合理 的 值 ， 然 后 调节 一 致 性 级 别 。 这 里 的 “合理 的 数值 ”可 能 会 很 小 。 一 致 性 
级 别 不 允许 将 数据 写 到 超过 副本 因子 的 节点 个 数 。 对 于 一 致 性 级 别 ，oNE 看 起 来 是 
最 低 的 ， 但 any 类 似 于 oNE， 却 提供 更 低 的 一 臻 性， 因为 你 可 能 会 在 写 入 数据 之 后 
很 久 才能 看 到 写 和 的 数据 。 如 果 集 群 中 有 任何 节点 还 在 线 ，ANY 操作 都 会 成 功 。 








如 果 你 是 Cassandra 的 新 手 ， 副 本 因子 和 一 致 性 级 别 可 能 让 你 觉得 有 些 无 
uv 4. 所 适 从 。 副 本 因子 是 keyspace 的 属性 ， 在 服务 器 的 配置 文件 中 指定 。 而 一 




















"P 致 性 级 别 是 每 次 查询 时 有 客户 端 指定 的 。 副 本 因子 表示 ， 每 次 写 人 操作 最 
终 会 把 数据 存 入 到 多 少 个 节点 ， 而 一 致 性 级 别 表示 ， 至 少 多 少 个 节点 响应 
了 ， 读 写 操作 可 以 被 认为 是 成 功 了 。 有 点 让 人 糊涂 的 是 ， 一 致 性 级 别 是 基 
于 副本 因子 而 定 的 ， 而 非 系统 中 的 节点 数 。 
提升 副本 因子 


从 设计 上 说 ， 副 本 因子 不 是 一 个 在 运行 中 调整 的 参数 ， 而 应 该 在 集群 启动 之 前 设 定 。 
但 是 ， 随 着 应 用 的 增长 ， 你 可 能 需要 增加 市 点 ， 这 时 可 能 要 提高 副本 因子 。 这 里 有 
些 简 单 的 原则 可 以 在 提高 副本 因子 时 参考 。 首 先 要 记 住 的 是 ， 在 调 高 副本 因子 之 后 ， 
必须 重启 市 点 。 修 复 操作 会 在 方 点 重启 之 后 进行 ，Cassandra 将 会 重新 分 布 数据 ， 以 
达到 副本 因子 指定 的 副本 数量 。 在 修复 的 过 程 中 ， 某 些 客户 端 可 能 会 连接 到 那些 还 
没有 得 到 数据 的 副本 ， 这 样 就 会 收 到 数据 不 存在 的 提示 。 


把 副本 因子 从 1 提高 到 2 的 更 快 的 方法 是 使 用 node tool。 首 先 在 原始 节点 执行 一 
个 drain 操作 ， 确 保 所 有 数据 都 刷 入 SSTable。 之 后 ， 停 止 这 个 节点 ， 这 样 它 就 不 
会 接受 新 的 写 操 作 了 。 然 后 复制 keyspace 下 的 数据 文件 (配置 文件 中 的 DataFile 
Directory 配置 项 的 值 )， 确 保 不 要 复制 内 部 Cassandra keyspace 的 值 。 将 这 些 文 
件 粘贴 到 新 节点 上 。 将 两 个 布点 上 的 副本 因子 配置 都 提高 到 2。 确保 两 个 节点 上 的 
autobootstrap 都 设置 为 false 了 。 然 后 重启 两 个 节点 ， 运 行 node tool repair, iX 
些 操作 将 让 客户 端 减少 忍受 未 初始 化 的 读 操作 时 间 。 








为 了 示意 这 个 过 程 ， 我 使 用 了 三 个 节点 ，IP 地 址 后 缀 分 别 是 1.5、1.7 和 1.8， 副 本 
因子 为 1。 我 将 连接 到 节点 1.5， 来 写 入 一 个 之 前 不 存在 的 列 : 





cassandra» connect 192.168.1.5/9160 

Connected to: "TDG Cluster" on 192.168.1.5/9160 
cassandra» set Keyspacel.Standard2['mykey']['rf']-'1' 
Value inserted. 


现在 ， 我 关 掉 节点 1.5， 连 接 到 另 一 个 节点 1.7， 来 尝试 获取 我 设置 的 值 : 


cassandra» connect 192.168.1.7/9160 

Connected to: "TDG Cluster" on 192.168.1.7/9160 
cassandra» get Keyspacel.Standard2['mykey']['rf'] 
Exception null 


因为 我 的 副本 因子 是 1， 而 这 个 值 仅 写 入 到 1.5 这 个 节点 了 ， 所 以 当 我 失去 这 个 节点 
的 时 候 ， 集 群 中 的 其 他 节点 没有 这 份 数 据 。 在 1.5 节点 重新 在 线 之 前 ， 客 户 端 将 无 
法 读 到 rf 列 的 值 。 


现在 我 们 来 看 看 提高 副本 因子 的 效果 。 把 1.5 和 1.7 节点 的 副本 因子 从 1 提高 到 2， 然 
后 重启 。 让 我 们 在 1.7 节点 上 给 rf 列 插 入 新 值 : 


cassandra> connect 192.168.1.7/9160 
Connected to: "TDG Cluster" on 192.168.1.7/9160 











cassandra» get Keyspacel.Standard2['mykey']['rf'] 
Exception null 
cassandra» set Keyspacel.Standard2['mykey']['rf']-z'2' 


Value inserted. 


之 前 的 例子 的 空 响应 显示 ， 之 前 节点 1.7 原本 没 这 份 数据 。 现 在 关闭 1.7, XE BERI 
1.5， 我 们 看 到 这 个 值 是 因为 写 到 1.7 的 值 被 复制 到 了 1.5， 这 是 副本 因子 的 影响 : 
cassandra» connect 192.168.1.5/9160 
Connected to: "TDG Cluster" on 192.168.1.5/9160 


cassandra» get Keyspacel.Standard2['mykey']['rf'] 
-» (column-rf, value-2, timestamp-1279491483449000) 


作为 一 般 性 的 原则 ， 你 可 以 估算 写 吞 叶 量 为 节点 数 除 以 副本 因子 。 所 以 ， 如 果 在 副 
本 因子 为 工 的 时 候 ， 一 个 10 节点 的 集群 的 典型 吞吐 能 力 大 约 是 10 000 次 写 每 秒 ， 
那么 当 把 副本 因子 提高 到 2， 吞 叶 能 力 大 约会 是 5000 次 写 每 秒 。 


65 分 区 器 


未 来 已 经 到 来 ， 只 是 分 布 尚 不 均匀 。 





一 一 William Gibson 
分 区 器 (partitioner) 的 用 途 是 允许 你 指定 行 键 值 应 该 被 如 何 排序 ， 这 会 严重 影响 数 


据 在 节点 间 如 何 分 布 ， 还 会 影响 查询 一 个 范围 的 行 时 可 选 的 选项 。 你 可 以 使 用 几 个 
不 同 的 分 区 器 ， 我 们 会 在 这 里 一 一 介绍 。 
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分 区 器 的 选择 不 适用 于 列 的 排序 ， 只 用 于 行 键 值 的 排序 。 














可 以 通过 修改 配置 文件 中 的 Partitione 元 素 或 通过 API 来 设置 分 区 器 。 这 个 元 素 需 
要 指定 一 个 实现 了 org.apache.cassandra.dht.IPartitioner 接口 的 类 的 名 字 。 
Cassandra 自 带 了 三 个 分 区 器 : 默认 的 随机 分 区 器 、 有 序 分 区 器 (order-preserving)， 以 及 
配 页 有 序 分 区 器 (collating order-preserving)。 你 还 可 以 实现 org. apache.cassandra. 
dht.IPartitioner 接口 来 创建 自己 的 分 区 器 ， 并 放 到 Cassansra 的 classpath F. 




















注意 ,分 区 器 会 影响 磁盘 上 的 SSTable 的 表示 。 所 以 ， 如 果 修 改 了 分 区 器 ， 


VES — 就 不 得 不 出 掉 数 据 目 录 。 


6.5.1 随机 分 区 器 


pë BL 47 [X 2 HH org.apache.cassandra.dht.RandomPartitioner 类 实现 ， 是 
Cassandra 的 默认 分 区 器 。 它 使 用 BijgIntegerToken 存放 MD5 哈 希 值 ， 通 过 哈 希 
值 来 决定 键 值 放 在 环 上 的 具体 位 置 。 这 样 做 的 好 处 是 可 以 让 键 值 很 均匀 地 分 布 到 集 
群 中 ， 因 为 这 个 分 布 是 随机 的 。 它 的 不 足 在 于 区 间 查 询 的 效率 不 高 ， 因 为 在 一 个 指 
定 区 间 的 键 值 可 能 会 分 布 在 环 上 很 分 散 的 位 置 ， 而 且 键 值 的 区 间 查 询 返 回 的 数据 也 
是 随机 顺序 的 。 


6.5.2 ”有 序 分 区 器 


有 序 分 区 器 由 org.apache.cassandra.dht.OrderPreservingPartitioner 类 实 
现 ， 它 实现 了 rPartitioner«StringToken» 接口 。 使 用 这 个 分 区 器 ， 令 牌 是 一 个 基 
于 键 值 的 UTF-8 字符 串 。 各 行 是 按照 键 值 的 顺序 存储 的 ， 按 照排 序 顺 序 对 齐 物理 结构 。 
将 列 族 配置 为 使 用 有 序 分 区 器 (OPP) ， 人 允许 你 进行 区 间 切 片 (range slice) 操作 。 


值得 注意 的 是 ，OPP 在 区 间 查 询 时 并 不 比 随机 分 区 器 更 有 效率 一 一 它 只 是 提供 顺序 
性 。 它 的 一 个 缺点 是 非常 容易 让 环 不 均衡 ， 因 为 真实 数据 通常 写 得 不 那么 均匀 。 例 
如 ， 考 虑 一 下 拼 字 游戏 中 不 同 字母 的 分 值 。Q 和 过 很 少 被 用 到 ， 所 以 它们 的 分 值 最 
高 。 使 用 OPP， 非 常 有 可 能 会 导致 最 后 大 量 数据 位 于 某 些 节点 ， 而 其 他 节点 上 的 数 
据 很 少 。 那 些 存 有 很 多 数据 的 节点 ， 使 得 环 非常 不 平衡 ， 常 常 被 看 做 是 “热点 "”。 这 
样 ， 使 用 OPP 就 意味 着 运 维 团队 将 不 得 不 周期 性 地 使 用 Nodetool 的 Loadbalance 
或 move 操作 来 手工 均衡 节点 。 


如 果 你 希望 从 客户 端 进行 区 间 查 询 ， 就 必须 使 用 有 序 分 区 器 或 配 页 有 序 分 区 器 。 
























































6.5.8 配 页 有 序 分 区 器 

这 个 分 区 器 使 用 美国 英语 区 域 设置 (EN vus) 进行 键 值 排序 。 类 似 OPP， 这 个 分 
器 同样 使 用 UTF-8 字符 串 键 值 。 虽 然 在 名 字 上 看 ， 它 似乎 是 扩展 了 OPP， 实 则 不 
然 。 事 实 上 ， 它 派生 自 AbstractByteOrderedPartitioner, 因为 用 途 实在 有 
限 ， 这 个 分 区 器 很 少 被 使 用 。 


6.5.4 字 节 序 分 区 器 


0.7 版 本 里 ， 开 发 团队 新 增加 了 ByteorderedPartitioner， 这 也 是 一 种 有 序 分 区 
器 ， 它 将 数据 看 做 是 神 字 市 ， 而 不 会 像 有 序 分 区 器 和 配 页 有 序 分 区 器 那样 ， 首 先 转 
换 为 字符 串 。 如 果 需 要 有 序 分 区 器 ， 但 不 需要 验证 键 值 是 否 是 字符 串 ， 推 荐 使 用 字 
市 序 分 区 器 来 提高 性 能 。 


6.6 Snitch 

Snitch 的 工作 就 是 用 于 确定 主机 间 的 大 致 相互 关系 。Snitch 收集 网 络 拓扑 的 信息 ， 
以 便 Cassandra 可 以 有 效 地 路 由 请 求 信息 。Snitch 可 以 指出 某 个 节点 相对 于 其 他 节 
点 的 位 置 。 它 可 以 为 副本 放置 策略 推断 节点 属于 哪个 数据 中 心 等 信息 。 


s 


























6.6.1 Simple Snitch 


Cassandra 默认 使 用 org. apache.cassandra.locator.EndPointSnitch', E fi 
单 地 比较 节点 IP 地 址 的 每 个 字 闻 。 如 果 两 个 主机 的 地 址 的 第 二 个 字 节 是 一 样 的 ， 那 
就 认为 它们 在 同一 个 数据 中 心 ， 如 果 两 个 主机 的 IP 地 址 的 第 三 位 是 相同 的 ， 就 认为 
它们 在 同一 个 机 架 上 。 “认为 是 ”意味 着 Cassandra 的 判断 基于 这 样 一 个 假设 : 你 的 
服务 器 会 放 在 不 同 的 VLAN 或 子 网 中 。 








^a 


Simple Snitch 是 在 0.7 版 本 中 被 重 命名 的 ， 之 前 的 版 本 中 称 为 endpoint snitch, 








可 以 通过 修改 配置 文件 中 的 -EndPointsnitch> 元 素来 配置 endpoint snitch。 另 一 
个 可 用 的 选择 是 PropertyFileSnitch, 


6.6.2 PropertyFileSnitch 


org.apache.cassandra.locator.PropertyFileSnitch 原本 位 于 contrib 之 





译注 1: 0.7 版 本 中 是 org .apache.cassandra.locator.SimpleSnitch. 
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中 ， 在 0.7 版 本 中 被 移动 到 了 主 代 码 部 分 了 。 这 个 Snitch 允许 在 使 用 机 架 感 知 策略 
时 ， 通 过 一 个 标准 的 键 / [E properties 文件 来 指定 更 具体 的 市 点 位 置 ， 配 置 文件 称 为 


cassandra-rack.properties。 


这 个 Snitch 由 Digg 开发 ， 它 们 使 用 Cassandra 并 经 常 贡献 出 它们 的 开发 成 果 。 这 个 
Snitch 让 你 告 之 节点 的 位 置 ， 从 而 帮助 Cassandra 了 解 两 个 IP 是 否 位 于 一 个 数据 中 
ib, 或 是 否 在 一 个 机 架 上 。 如 果 因 为 系统 维护 需要 经 常 移动 服务 器 ， 或 者 采用 了 一 
个 非常 复杂 的 IP 地 址 方案 ， 这 个 Snitch 将 非常 有 用 。 


cassandra-rack.properties 的 默认 配置 是 这 样 的 : 


# Cassandra Node IP-Data Center:Rack 
10.0.0.10-2DC1:RAC1 
10.0.0.11-2DC1:RAC1 
10.0.0.12-2DC1:RAC2 


10.20.114.10-DC2:RAC1 
10.20.114.11-DC2:RAC1 
10.20.114.15-DC2:RAC2 


4 default for unknown nodes 
default-DC1:rl 


这 里 可 以 看 到 ， 有 两 个 数据 中 心 ， 每 个 有 两 个 机 架 。Cassandra 可 以 依 此 高 效 地 判断 
出 节点 的 均匀 分 布 。 


修改 这 个 文件 中 的 每 个 值 来 反映 集群 的 配置 ， 指 定 有 哪些 P 的 节点 属于 哪个 机 
架 、 哪 个 数据 中 心 。 虽 然 如 果 经 常 希望 增加 或 移 走 节点 ， 这 个 文件 会 很 难 维护 ， 
但 通过 牺牲 一 点 灵活 性 和 易 维 护 性 换取 了 更 多 的 控制 和 更 好 的 运行 时 效率 ， 因 为 
Cassandra 不 必 去 判断 节点 的 位 置 了 ， 而 是 你 直接 告诉 它 每 个 节点 在 什么 位 置 。 





在 晋升 为 标准 发 布 版 的 一 部 分 之 前 ，PropertyFileSsnitch 曾经 叫做 
PropertyFileEndPointSnitch, 位 于 contrib 目录 下 ， 如 果 你 希望 在 
网 上 查找 相关 信息 的 话 也 可 以 参考 原来 的 名 字 。 

















6.7 创建 集群 


可 以 在 一 个 单 节点 上 运行 Cassandra， 这 对 于 开始 熟悉 Cassandra、 学 习 如 何 读 写 数 
据 很 有 用 。 但 Cassandra 是 特别 为 由 很 多 台 机 器 组 成 的 集群 而 设计 的 ， 可 以 利用 多 
台 计 算 机 的 能 力 ， 提 供 很 高 的 容量 。 在 本 节 中 ， 我 们 可 以 看 到 ， 要 让 一 个 环 上 的 多 
个 Cassandra 实例 相互 通信 ， 都 需要 做 什么 。 
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在 本 书写 作 时 ， 整 个 配置 机 制 正在 发 生 翻 天 覆 地 的 变化 。 本 节 适 用 于 如 何 
使 用 0.6 版 本 来 创建 一 个 集群 。 

















这 里 ， 我 们 要 做 的 是 使 用 Cassandra 自 带 的 示例 keyspace 来 确保 多 台 机 器 在 同一 个 
环 上 。 我 们 将 从 默认 配置 文件 和 keyspace 定义 开始 ， 只 改变 那些 用 来 创建 一 个 简单 
集群 需要 的 设置 。 


在 这 个 练习 中 ， 假 设 我 们 有 两 台 机 器 ， 要 配置 为 一 个 Cassandra 集群 ，IP 地址 分 别 
为 192.168.1.5 和 192.168.1.7。 当 启动 Cassandra 时 ， 它 读 取 配置 文件 来 确定 你 希望 
当前 的 节点 如 何 对 外 广播 ， 也 就 是 说 ， 绑 定 哪 个 IP 地 址 和 端口 。 你 需要 告诉 当前 的 
节点 其 他 节点 的 信息 ， 这 样 它 才 可 以 参与 到 同一 个 环 中 。 这 些 都 可 以 通过 在 文本 编 
辑 器 里 编辑 配置 文件 ， 修 改 儿 个 值 来 完成 ， 正 如 我 们 将 要 给 出 的 例子 这 样 。 








集群 中 的 新 节点 需要 一 个 种 子 节 点 (seed node)。 如 果 节 点 A 作为 节点 B 的 种 子 节 
点 ， 当 节点 B 上线 时 ， 节 点 B 会 把 节点 A 当做 一 个 参考 点 ， 从 它 获 取 数 据 。 种 子 贡 
点 会 忽略 AutoBootstrap 设置 ， 因 为 它 会 认为 自己 是 集群 中 的 第 一 个 节点 。 


6.7.1 修改 集群 名 称 

Cassandra 集群 有 一 个 名 字 ， 这 样 可 以 避免 一 个 集群 中 的 节点 误 加 入 一 个 你 不 希 
望 它 参 与 的 集群 。 配 置 文件 中 默认 的 集群 名 称 为 “Test Cluster”。 可 以 通过 更 新 
«clusterName» 元 素来 修改 集群 名 称 一 一 要 确定 已 经 在 希望 加 入 到 集群 中 的 所 有 
节点 上 都 修改 了 这 个 值 了 。 


























Cassandra 会 在 尝试 启动 节点 读 取 数 据 文件 时 给 出 集群 名 称 不 匹配 的 警告 ， 
然后 自己 关闭 。 





四 如 果 已 经 在 现 有 的 Cassandra 集群 中 写 入 了 数据 ， 然 后 再 修改 集群 名 称 ， 
"Uu 











6.7.0 给 集群 增加 节点 
配置 文件 中 有 个 元 素 默 认 设 为 了 false。 假 设 你 已 经 运行 了 一 个 集群 ， 或 者 有 一 个 节 
点 并 往 里 加 入 了 数据 ， 现 在 希望 在 集群 中 加 入 更 多 节点 ， 可 以 使 用 autobootstrap 
元 素来 做 到 这 点 。 我 有 一 个 Cassandra 服务 器 ， 运 行 在 IP 地址 后 绥 为 1.5 的 机 器 上 ， 
下 面 是 NodeTool 的 输出 : 

$ bin/nodetool -h 192.168.1.5 ring 


Address Status Load Range Ring 
192.168.1.5 "UP 433.43 MB 126804671661649450065809810549633334036 |<--| 
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作为 一 个 种 子 节 点 ， 这 人 台 服 务 器 有 自己 的 卫 地 址 ， 我 们 设 autobootstrap 为 false, 
为 这 个 节点 本 身 是 种 子 。 如 果 要 增加 新 的 种 子 节 点 ， 那 么 需要 先 让 它 autobootstrap， 
然后 将 它 变 为 种 子 节点 。 如 果 节 点 B 要 使 用 节点 A 作为 种 子 ， 那 么 节点 B 就 应 该 在 
它 的 配置 文件 中 把 节点 A 设 为 种 子 节 点 。 但 节点 A 不 需要 自己 声明 为 种 子 。 


现在 我 要 加 入 另 一 个 节点 来 分 担负 载 。 这 个 节点 的 地 址 后 缀 为 1.7。 首 先 ， 确 定 集 群 
中 的 所 有 节点 设置 的 集群 名 和 keyspace 定义 都 是 相同 的 ， 这 样 ， 新 节点 才 可 以 接收 数 
据 。 编 辑 第 二 个 节点 的 配置 文件 ， 指 定 第 一 个 节点 作为 种 子 。 然 后 把 autobootstrap 设 
置 为 true。 


当 第 二 个 节点 启动 的 时 候 ， 它 会 立刻 发 现 第 一 个 节点 ， 之 后 会 休眠 90 秒 钟 ， 让 节点 
们 通过 gossip 传播 信息 ， 确 定 每 个 节点 应 该 存储 多 少数 据 ， 之 后 ， 从 第 一 个 节点 获取 
自 举 令 牌 (bootstrap token) ， 这 样 就 知道 自己 将 要 接收 到 的 数据 了 。 自 举 令 牌 的 负载 
是 最 高 负载 节点 的 一 半 。 之 后 ， 第 二 个 节点 再 次 休眠 30 秒 ， 然 后 开始 自 举 。 














[NFO 11:45:43,652 Starting up server gossip 

[INFO 11:45:43,886 Joining: getting load information 

[NFO 11:45:43,901 Sleeping 90000 ms to wait for load information... 

[NFO 11:45:45,742 Node /192.168.1.5 is now part of the cluster 

[INFO 11:45:46,818 InetAddress /192.168.1.5 is now UP 

INFO 11:45:46,818 Started hinted handoff for endPoint /192.168.1.5 

INFO 11:45:46,865 Finished hinted handoff of 0 rows to endpoint /192. 
168.1.5 

[INFO 11:47:13,913 Joining: getting bootstrap token 

INFO 11:47:16,004 New token will be 41707658470746813056713124104091156 
313 to assume load from /192.168.1.5 

[NFO 11:47:16,019 Joining: sleeping 30000 ms for pending range setup 

[NFO 11:47:46,034 Bootstrapping 


根据 所 拥有 的 数据 量 ， 你 会 看 到 新 节点 在 一 定时 间 之 后 进入 工作 状态 。 可 以 使 用 
Nodetool 的 streams 命令 来 观察 自 举 过 程 中 的 数据 传输 。 查 看 日 志文 件 也 是 确定 自 
举 完成 的 好 办 法 ， 但 要 在 自 举 进行 过 程 中 观测 发 生 了 什么 ， 还 是 要 使 用 nodetoo1l 
streams。 最 终 ， 新 节点 将 会 从 第 一 个 节点 那儿 接收 到 负载 ， 你 将 得 到 一 个 新 节点 
已 经 启动 的 操作 成 功 提示 : 
INFO 11:52:29,361 Sampling index for /var/lib/cassandra/dataNMKeyspacelN 
Standard 1-1-Data.db 
INFO 11:52:34,073 Streaming added /var/lib/cassandra/dataNKeyspacelVN 
Standard1-1-Data.db 
INFO 11:52:34,088 Bootstrap/move completed! Now serving reads. 


INFO 11:52:34,354 Binding thrift service to /192.168.1.7:9160 
INFO 11:52:34,432 Cassandra starting up... 


如 你 所 见 ， 数 据 传输 大 概 用 了 4 分 钟 左右 。 








在 自 举 期 间 , 在 1.5 的 (种子) 节点 看 起 来 是 这 样 的 : 


INFO 11:48:12,955 Sending a stream initiate message to /192.168.1.7... 
INFO 11:48:12,955 Waiting for transfer to /192.168.1.7 to complete 
INFO 11:52:28,903 Done with transfer to /192.168.1.7 


现在 ， 我 们 可 以 再 次 运行 nodetool， 来 确定 一 切 设 置 正常 : 





$ bin/nodetool -h 192.168.1.5 ring 


Address Status Load Range Ring 
126804671661649450065809810549633334036 

192.168.1.7 Up 229.56 MB 41707658470746813056713124104091156313 |«--| 

192.168.1.5 Up 459.26 MB 126804671661649450065809810549633334036 |-->| 


Cassandra 已 经 通过 从 之 前 的 节点 (1.5) 分 出 了 一 半 的 负载 给 1.7， 成 功 的 自 举 了 这 
个 节点 。 现 在 我 们 有 了 一 个 两 节点 的 集群 。 要 确保 它 已 经 工作 了 ， 我 们 在 1.5 添加 
一 个 值 : 

cassandra» connect 192.168.1.5/9160 

Connected to: "TDG Cluster" on 192.168.1.5/9160 


cassandra» set Keyspacel.Standard2['mykey']['colO']-'valueO' 
Value inserted. 


I — A ANE m Mp ME due E RERO 

然后 打开 第 二 个 命令 行 客户 端 ， 从 1.7 节点 读 这 个 值 : 
cassandra> connect 192.168.1.7/9160 

Connected to: "TDG Cluster" on 192.168.1.7/9160 


cassandra» get Keyspacel.Standard2['mykey'] ['co10'] 
=> (column-colO, value=value0, timestamp=1278878907805000 


你 可 以 重复 这 些 步 又 来 在 你 的 集群 中 加 入 更 多 的 市 点 。 


如 果 和 集群 中 某 个 节点 有 什么 地 方 出 错 了 (可 能 是 掉 线 了 ， 不 过 Cassandra 无 法 确 
定 )， 那 么 运行 nodetool 的 时 候 可 以 看 到 一 个 问号 : 


$ bin/nodetool -h 192.168.1.5 ring 


Address Status Load Range Ring 
112711146095673746066359353163476425700 

192.168.1.5 Up 459.26 MB 27647275353297313886547808446514704912 |«--] 

192.168.1.7 ? 229.53 MB 112711146095673746066359353163476425700 |-->| 


6.7.3 ”多 种 子 节点 


Cassandra 允许 你 指定 多 个 种 子 节点 。 种 子 节点 用 作 其 他 节点 的 联络 点 ， 这 样 
Cassandra 可 以 了 解 集群 的 拓扑 ， ta 哪些 节点 负责 哪些 键 值 区 间 。 


默认 情况 下 ， 配 置 文件 中 只 有 一 个 seeda 项 : 


H 
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seeds: 
- 127.0.0.1 


要 在 你 的 环 上 增加 更 多 的 种 子 节 点 ， 只 要 添加 第 二 个 种 子 元 素 就 行 了 。 我 们 只 需要 
在 配置 文件 中 指出 种 子 节 点 的 IP 或 主机 名 就 可 以 设置 让 两 个 服务 器 作为 种 子 : 
seeds: 


= 192.168.1.5 
= 192.168.1.7 





如 果 你 使 用 节点 自己 的 IP 作为 种 子 节点 ， 那 么 autobootstrap 元 素 必 须 置 为 

false。 一 个 方法 是 先 启动 三 个 或 五 个 节点 作为 种 子 ， 不 使 用 autobootstrap, 

也 就 是 说 ， 手 工 选择 令 牌 或 允许 Cassandra 随机 选择 令 牌 。 其 余 的 节点 将 
“会 再 做 种 子 ， 它 们 将 使 用 autobootstrap 加 入 集群 。 




















接 下 来 ， 我 们 需要 更 新 这 台 机 器 的 监听 地 址 ， 不 能 只 监听 本 地 还 回 地 址 。 监 听 地 址 
是 节点 互相 识别 的 标识 符 ， 并 用 于 所 有 的 内 部 通信 。 

listen address: 192.168.1.5 
最 后 ， 我 们 需要 修改 另 一 个 地 址 ，RPC 客户 端 将 会 在 这 个 地 址 上 进行 广播 ， 因 为 这 


是 其 他 节点 看 到 本 节点 的 方法 。 默 认 情况 下 ， 配 置 文件 有 一 个 rpe address 配置 
项 ， 使 用 的 是 localhost。 我 们 将 会 修改 这 个 值 为 每 台 机 器 的 真实 的 IP 地址: 








rpc address: 192.168.1.5 


这 项 rpc address 设置 仅 用 于 客户 端 到 Cassandra 节点 的 直接 连接 。 





a 

















: rpc adress 曾经 叫做 ThriftRddqress， 不 过 因为 在 未 来 的 版 本 中 ， 
Qu. 可 能 会 使 用 Avro 替换 Thrift 作为 RPC 机 制 ， 这 个 参数 就 改 成 了 一 个 更 为 
UH 通用 的 名 字 。 








现在 ， 可 以 重新 启动 Cassandra， 并 开始 启动 其 他 机 器 上 的 系统 。 如 果 你 能 成 功 的 在 
集群 中 加 入 多 个 节点 ， 就 会 看 到 类 似 下 面 的 输出 (你 的 日 志 可 能 没有 这 么 多 内 容 ， 
因为 我 打开 了 debug 级 的 输出 ) : 


INFO 15:45:15,629 Starting up server gossip 
INFO 15:45:15,677 Binding thrift service to /192.168.1.5:9160 
INFO 15:45:15,681 Cassandra starting up... 
DEBUG 15:45:16,636 GC for ParNew: 13 ms, 12879912 reclaimed leaving 
11233080 used; max is 1177812992 
DEBUG 15:45:16,647 attempting to connect to /192.168.1.7 
DEBUG 15:45:17,638 Disseminating load info ... 





INFO 15:45:19,744 Node /192.168.1.7 is now part of the cluster 
DEBUG 15:45:19,746 Node /192.168.1.7 state normal, token 
41654880048427970483049687892424207188 
DEBUG 15:45:19,746 No bootstrapping or leaving nodes -» empty pending 
ranges for Keyspacel 

INFO 15:45:20,789 InetAddress /192.168.1.7 is now UP 
DEBUG 15:45:20,789 Started hinted handoff for endPoint /192.168.1.7 
DEBUG 15:45:20,800 Finished hinted handoff for endpoint /192.168.1.7 
DEBUG 15:46:17,638 Disseminating load info ... 














这 些 输出 显示 ， 我 的 集群 中 有 两 个 节点 : 我 刚刚 启动 的 节点 正在 监听 192.168.1.5, 
另 一 个 已 经 启动 并 且 运 行 的 节点 ， EHT 192.168.1.7。 


6.8 动态 加 入 环 


Cassandra 集群 中 的 节点 可 以 随时 下 线 、 上 线 ， 而 不 影响 到 集群 的 其 他 部 分 〈 假 设 
使 用 了 合理 的 副本 因子 和 一 致 性 级 别 )。 假 设 我 们 局 动 了 6.7 市 提 到 的 一 个 两 节点 集 
群 。 现 在 有 故障 发 生 ， 甚 中 一 个 节点 掉 线 了 ， 我 们 需要 确认 集群 的 其 他 部 分 仍然 可 
以 工作 : 











INFO 15:34:18,953 Starting up server gossip 

INFO 15:34:19,281 Binding thrift service to /192.168.1.7:9160 
INFO 15:34:19,343 Cassandra starting up... 

INFO 15:45:19,396 Node /192.168.1.5 is now part of the cluster 
INFO 15:45:20,176 InetAddress /192.168.1.5 is now UP 

INFO 16:13:36,476 error writing to /192.168.1.5 

INFO 16:13:40,517 InetAddress /192.168.1.5 is now dead. 

INFO 16:21:02,466 error writing to /192.168.1.5 

INFO 16:21:02,497 error writing to /192.168.1.5 





错误 消息 将 一 直 重 复 ， 直 到 节点 1.5 重新 上 线 位 置 。 运 行 nodetool 就 可 以 看 到 ， 
这 个 节点 已 经 下 线 ， 而 其 他 节点 仍 在 工作 中 。 


我 们 恢复 这 个 节点 ， 并 检查 1.7 WHE. E, Cassandra 已 经 自动 地 发 现 了 另 一 个 
节点 已 经 回 到 集群 了 ， 并 且 开 始 提 供 服 务 : 








INFO 16:33:48,193 error writing to /192.168.1.5 

INFO 16:33:51,235 error writing to /192.168.1.5 

INFO 16:34:20,126 Standard2 has reached its threshold; switching in a 

fresh Memtable at CommitLogContext (file='/var/lib/cassandra/commitlog\ 
CommitLog-127759165782.10g', position-752) 

INFO 16:34:20,173 Enqueuing flush of Memtable (Standard2)097481705 

INFO 16:34:20,251 Writing Memtable (Standard2)07481705 

INFO 16:34:20,282 LocationInfo has reached its threshold; switching in a 

fresh Memtable at CommitLogContext (file-'/var/lib/cassandra/commitlogV 
CommitLog-127759658782.10g', position-752) 

INFO 16:34:20,298 Enqueuing flush of Memtable (LocationInfo)0924804063 
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INFO 16:34:20,579 Completed flushing c: varMlibNcassandraMdataNMKeyspacelV 
Standad2-1-Data.db 

INFO 16:34:20,594 Writing Memtable (LocationInfo)924804063 

INFO 16:34:20,797 Completed flushing c: varMlibNcassandraMdataNsystemV 
LocationlIfo-2-Data.db 

INFO 16:34:58,159 Node /192.168.1.5 has restarted, now UP again 

INFO 16:34:58,159 Node /192.168.1.5 state jump to normal 


这 时 ， 节 点 1.5 的 状态 恢复 为 正常 ， 重 新 成 为 了 集群 的 一 部 分 : 


eben@morpheus$ bin/nodetool -host 192.168.1.5 ring 


Address Status Load Range Ring 
41654880048427970483049687892424207188 

192.168.1.5 Up 1.71 KB 20846671262289044293293447172905883342 |«--] 

192.168.1.7 Up 2 KB 41654880048427970483049687892424207188 |-->| 


699 安全 


默认 情况 下 ，Cassandra 允许 网 络 中 的 任何 客户 端 连接 到 你 的 集群 上 。 这 并 不 是 说 
Cassandra 没有 内 建 的 安全 机 制 ， 而 是 Cassandra 默认 配置 了 一 个 允许 所 有 客户 端 无 
需 提 供 任何 认证 信息 就 可 以 登录 的 鉴 权 机 制 。Cassandra 的 安全 机 制 是 可 置换 的 ， 这 
意味 着 你 可 以 轻易 换 用 其 他 鉴 权 机 制 ， 或 者 是 写 你 自己 的 鉴 权 机 制 。 





默认 插入 的 鉴 权 器 是 org.apache.cassandra.auth.AllowAllAuthenticator。 
如 果 要 求 客户 端 提供 认证 信息 ， 可 以 使 用 另 一 个 Cassandra 自 带 的 鉴 权 器 ，org. 
apache.cassandra.auth.SimpleAuthenticator。 在 本 节 中 ， 我 们 来 看 看 如 何 
f Fax A EUR o 





6.9.1 使 用 SimpleAuthenticator 

在 config 目录 中 有 两 个 文件 : access.properties 和 passwd.properties, access 文件 中 
存放 的 键 / 值 对 用 于 指定 允许 访问 某 个 keyspace 的 用 户 ， 不 同 用 户 间 以 逗号 分 隔 。 
示例 如 下 : 








Keyspacel-jsmith,Elvis Presley,dilbert 


这 里 指出 了 允许 访问 Keyspacei 的 三 个 用 户 ， 用 户 名 中 可 以 有 空格 。 





而 passwd.properties 文件 则 包含 每 个 用 户 及 其 密码 。 这 里 是 一 个 passwd.properties 
文件 的 例子 : 
jsmith=havebadpass 


Elvis\ Presley=graceland4evar 
dilbert=nomoovertime 





主意 ， 因 为 Elvis Presley 的 用 户 名 中 包含 空格 ， 必 须 使 用 一 个 反 斜 杠 来 转 义 空格 。 


要 使 用 简单 鉴 权 器 ， 需 要 在 cassandra.yaml 之 中 替换 authenticator 元 素 的 内 容 。 从 
org.apache.cassandra.auth.AllowAllAuthenticator 变 为 需要 登录 的 实现 
类 的 名 字 : org.apache.cassandra.auth.SimpleAuthenticator, 


如 果 还 没有 正确 配置 鉴 权 文件 ， 那 么 会 得 到 这 样 一 条 错误 信息 : 





ERROR 10:44:27,928 Fatal error: When using org.apache.cassandra.auth. 
SimpleAuthenticator 


access.properties and passwd.properties properties must be defined. 


这 是 因为 还 有 一 步 没 有 做 完 : 我 们 必须 告诉 Cassandra 入 口 和 passwords 文件 的 位 
置 ， 这 要 使 用 bin/cassandra.in.sh 包含 脚本 。 我 们 通过 在 文件 尾部 加 入 如 下 代码 ， 把 
文件 的 位 置 传 给 JVM。 我 的 include 文件 现在 看 起 来 就 像 这 里 的 片段 ， 为 文件 指出 


完全 路 径 : 





JVM OPTS-" 
-Dpasswd.properties-/home/eben/books/cassandra/dist/ 

apache-cassandra-0.7.0-beta1/ 

conf/passwd.properties 
-Daccess.properties-/home/eben/books/cassandra/dist/ 

apache-cassandra-0.7.0-betal/ 

conf/access.properties" 


如 果 你 指定 了 错误 的 文件 位 置 或 名 称 ， 服 务 器 会 给 出 相应 的 出 错 信息 : 


ERROR 11:13:55,755 Internal error processing login 
java.lang.RuntimeException: Authentication table file given by property 
passwd.properties 

could not be found: /somebadpath/my.properties (No such file or directory) 


配置 成 功 之 后 ， 我 们 可 以 使 用 用 户 名 和 密码 来 登入 命令 行 界面 了 : 


[default@unknown] connect localhost/9160 

Connected to: "Test Cluster" on localhost/9160 
[default@unknown] use Keyspacel jsmith 'havebadpass' 
Authenticated to keyspace: Keyspacel 
[jsmithGKeyspacel] 


如 果 输 入 了 错误 的 密码 ， 客 户 端 会 提示 : 


[default@unknown] use Keyspacel jsmith 'havebadpassfdfdfd' 
Exception during authentication to the cassandra node: verify keyspace 
exists, and you are using correct credentials. 





如 果 输 入 了 不 存在 的 用 户 名 ,或 试图 通过 鉴 权 登入 到 这 个 用 户 没 有 访问 权限 的 
keyspace, 会 得 到 这 样 的 出 错 信 息 : 
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[defaulteunknown] use Keyspacel dude 'dude' 
Login failure. Did you specify 'keyspace', 'username' and 'password'? 
[defaulteunknown] 
有 一 Mad ond eq dein MUN 登录 一 个 没有 访问 权限 的 
keyspace， 会 看 到 鉴 权 信 息 ， 但 接 下 来 你 将 不 能 进行 任何 操作 。 如 下 面 的 例子 ， 我 们 
进入 一 个 需要 鉴 权 的 keyspace。 命 令 cu 但 我 们 不 能 访问 任何 列 : 
[defaulteKeyspacel] get Standardl['user123'] ['name'] 


Your credentials are not sufficient to perform READONLY operations 
[defaulteKeyspacel] 


假设 已 经 为 这 个 用 户 设置 了 'name! 值 ， 如 果 提 供 了 正确 的 认证 信息 ， 我 们 就 应 该 
行 这 个 操作 : 





[defaulteKeyspacel] use Keyspacel eben 'pass' 

Authenticated to keyspace: Keyspacel 

[ebeneKeyspacel] get Standardl['user123']['name'] 

=> (column-6e616d65, value-bootsy, timestamp-1284316537496000) 
[ebeneKeyspace1] 


还 能 在 连接 到 命令 行 界面 的 时 修一 起 输入 用 户 名 和 密码 : 


eben@morpheus:~/books/cassandra/dist/apache-cassandra-0.7.0-betals 
bin/cassandra-cli --host localhost --port 9160 
--username jsmith --password havebadpass --keyspace Keyspacel 


Connected to: "Test Cluster" on localhost/9160 
Welcome to cassandra CLI. 


Type 'help' or '?' for help. Type 'quit' or 'exit' to quit. 
[jsmitheKeyspacel] get Standardl1['user123']['name'] 

=> (column-6e616d65, value-bootsy, timestamp-1284316537496000) 
[jsmitheKeyspacel] 


运行 查询 就 可 以 返回 结果 。 





在 0.6 版 本 中 没有 提供 通过 Thrift API 的 登录 操作 ， 所 以 ， 如 果 先 启动 命令 
行 ， 再 连接 到 一 个 需要 认证 的 keyspace， 操 作 将 无 法 成 功 。 但 在 0.7 版 本 
中 ,已 经 加 入 了 登录 操作 ， 没 有 这 个 问题 了 。 





























在 0.7 版 本 中 ， 鉴 权 器 被 分 为 IAuthenticator (负责 鉴 权 ) 和 
IAuthority (负责 授权 )。simpleAuthenticator 类 也 把 授权 的 功能 
剥离 到 SimpleAuthority 类 中 了 。 SimpleAuthenticator 类 只 读 取 
passwd.properties X fF, 而 simpleAuthority 只 读 HX access.properties 


文件 。 




















6.9.2 ”编程 鉴 权 


如 果 你 为 keyspace 设置 了 鉴 权 ， 那 么 你 的 客户 端 应 用 代码 就 需要 登录 操作 。 


25 6-2 的 代码 。 
例 6-2: 编程 鉴 权 登录 到 一 个 keyspace 


可 以 参 





package com.cassandraguide.config; 


import java.util.HashMap; 
import java.util.Map; 


import org.apache.cassandra.thrift.AccessLevel; 

import org.apache.cassandra.thrift.AuthenticationRequest; 
import org.apache.cassandra.thrift.Cassandra; 

import org.apache.thrift.protocol.TBinaryProtocol; 

import org.apache.thrift.protocol.TProtocol; 

import org.apache.thrift.transport.TFramedTransport; 
import org.apache.thrift.transport.TSocket; 

import org.apache.thrift.transport.TTransport; 








/** 
* 如 何 连 接 到 设置 了 Simpleauthenticator 的 keyspace 
*f 

public class AuthExample { 


public static void main(String[] args) throws Exception { 


TTransport tr - new TSocket("localhost", 9160); 
TFramedTransport tf - new TFramedTransport (tr); 
TProtocol proto = new TBinaryProtocol(tf); 
Cassandra.Client client - new Cassandra.Client (proto); 
tr.open(); 





AuthenticationRequest authRequest - new AuthenticationRequest(); 


Map«String, String» credentials = new HashMap«String, 


credentials.put("username", "jsmitnh"); 
credentials.put("password", "havebadpass"); 
authRequest.setCredentials (credentials); 


client.set keyspace("Keyspacel"); 


AccessLevel access - client.login(authRequest); 
System.out.println("ACCESS LEVEL: " + access); 
tr.close(); 


在 这 种 情况 下 ， 程 序 会 输出 FULL， 因 为 这 是 用 户 的 访问 级 别 。 


String>(); 


这 里 有 些 问 题 需要 注意 。 首 先 ， oh username fll password 作为 键 ， 而 
非 以 用 户 名 为 键 、 密 码 为 值 。 其 次 ， 需 要 单独 调用 set_keyspace， 以 指定 要 鉴 权 





的 keyspace。 
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6.9.3 ”使 用 MD5 加 密 


SimpleAuthenticator 类 有 两 种 密码 设置 方式 : 明文 文本 和 MD5 加 密 。 到 目前 
HIE, 我 们 一 直 使 用 明文 文本 方式 ， 也 是 默认 的 方式 。 为 了 增强 安全 性 ， 可 以 考 
J£ MD5 方式 。MD5 是 一 种 加 密 算法 ， 是 “消息 摘要 算法 版 本 5 (Message-Digest 
algorithm version 5)” 的 缩写 (版 本 5 是 说 它 是 版 本 4 的 一 个 加 强 版 )。 这 是 一 种 广 
泛 使 用 的 单 向 哈 希 国 数 ， 使 用 输入 数据 生成 一 个 128 位 的 哈 希 值 。 值 得 注意 的 是 ， 




















这 并 非 一 种 非常 安全 的 算法 ， 只 是 更 难 被 破解 而 已 。 
可 以 通过 在 cassandra.in.sh 文件 中 传人 passwd.mode 开关 参数 来 启用 MD5 算法 : 

















JVM OPTS=" N 
-da N 

//other stuff... 
-Dpasswd.mode-MD5" 


现在 ， 如 果 要 使 用 未 加 密 的 密码 ， 就 会 得 到 这 样 一 个 错误 信息 : 


Exception during authentication to the cassandra node, verify you are 
using correct credentials. 














可 以 使 用 多 种 工具 ， 从 明文 用 户 名 密码 通过 单 向 哈 希 来 生成 MD5 加 密 的 版 本 。 这 


里 有 一 个 Python 程序 ， 可 以 从 明文 字符 串 生 成 MD5 哈 希 : 


$ python 

Python 2.6.5 ... 

>>> from hashlib import md5 

>>> p = "havebadpass" 

>>> h = md5(p).hexdigest () 

>>> print h 
e1a31eee21366b736e8e47f9e9d13ab0d 


现在 ， 在 passwd.properties 文件 中 使 用 上 面 这 个 加 密 值 来 替换 jsmith 的 密码 就 可 


以 了 。 


6.9.4 提供 你 自己 的 鉴 权 算法 





如 果 你 有 自己 的 特殊 需求 ， 可 以 为 Cassandra 提供 你 自己 的 览 权 算法 ， 比 如 
Kerberos 认证 或 加 密 ， 或 者 你 希望 将 密码 存在 其 他 位 置 ， 比 如 LDAP 目录 。 要 创建 
你 自己 的 鉴 权 方法 ， 只 要 实现 IAuthenticator 接口 即 可 。 这 个 接口 需要 提供 两 个 








方法 ， 如 下 : 


public AccessLevel login(String keyspace, AuthenticationRequest 
authRequest) 
throws AuthenticationException, AuthorizationException; 





public void validateConfiguration() throws ConfigurationException; 





login 方法 返回 一 个 Thrift AccessLevel 实例 ， 并 指定 用 户 被 授权 的 访问 级 别 。 
validateConfiguration 方法 用 于 检查 鉴 权 机 制 是 否 被 正确 设置 了 。 比 如 ， 对 于 


simpleAuthenticator， 就 会 检查 是 否 指 定 了 access 和 password 文件 。 


6.10 ”杂项 设置 
还 有 一 些 通用 设置 ， 不 属于 之 前 的 那些 分 类 ， 我 把 它们 都 集中 在 这 里 了 。 


column index size in kb 

这 个 配置 项 指定 了 两 次 列 索 引 之 间 ， 一 行 可 以 增长 的 尺寸 ， 单 位 为 KB。 如 果 列 
值 都 非常 大 ， 可 能 需要 提高 这 个 参数 的 值 。 超 级 列 没 有 索引 ， 所 以 ， 这 个 设置 只 
针对 列 索 引 。 这 个 设置 一 般 不 会 设计 得 很 大 ， 因 为 所 有 索引 数据 在 每 次 读 访问 时 
都 要 用 到 ， 所 以 ， 如 果 这 个 值 大 到 超出 你 的 需要 ， 可 能 会 使 Cassandra 的 速度 受 
到 影响 。 这 对 于 经 常 读 取 部 分 行 的 应 用 场景 尤为 重要 。 





in memory compaction limit in mb 

这 个 值 代 表 了 在 内 存 中 进行 压 紧 操作 的 行 的 尺寸 限制 。 如 果 一 行 的 长 度 超过 了 这 
个 值 ， 那 么 就 会 分 段 放 在 磁盘 上 进行 压 紧 操作 ， 这 会 让 压 紧 操作 变 成 更 慢 的 两 步 
操作 。 这 个 值 默认 为 64 MB。 在 Cassandra 0.7 之 前 的 版 本 ， 这 个 设置 称 为 row | 


warning threshold in mb. 





gc grace seconds 

这 个 值 是 对 墓碑 进行 垃圾 回收 之 前 等 待 的 秒 数 。 幕 碑 用 于 标记 已 删除 数据 ， 这 
些 数据 直到 到 达 这 个 时 间 阔 值 才 会 被 永久 删除 。 这 个 参数 的 默认 设置 是 864 000 
秒 ， 也 就 是 10 天 。 这 个 时 间 看 起 来 有 些 过 长 了 ， 不 过 你 必须 有 足够 的 时 间 ， 允 
许 墓碑 传播 到 集群 的 每 个 副本 上 。 即 使 这 样 ， 这 个 时 间 似 乎 也 太 长 ， 因 为 这 个 设 
计 的 初 圳 是 ， 你 可 能 会 遇 到 硬件 故障 ， 需 要 时 间 来 让 故障 节点 恢复 工作 ， 这 个 时 
间 让 墓碑 也 可 以 传播 到 这 些 恢复 的 节点 之 上 。 如 果 宕 机 节点 在 墓碑 被 清除 的 时 候 
还 没有 收 到 墓碑 ， 那 么 读 时 修复 会 导致 没有 设 为 墓碑 的 、 未 被 删除 的 数据 重新 被 
写 入 回 集群 中 来 。 

当然 ， 如 果 有 很 多 删除 操作 ， 可 以 通过 降低 这 个 值 来 让 系统 更 加 整洁 ， 但 是 这 并 
不 会 有 什么 很 大 的 不 同 。 








phi convict threshold 
这 个 值 规定 了 Cassandra 的 故障 检测 算法 的 阅 值 ，Phi 值 达到 这 个 值 之 后 ， 
Cassandra 会 确信 这 个 服务 器 离线 了 。 这 个 值 的 默认 设置 是 8， 通常 不 需要 修改 
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这 个 值 。 但 是 ， 如 果 网 络 状况 不 佳 ， 或 是 有 其 他 原因 让 你 认为 Cassandra 在 此 有 
误 判 ， 可 以 通过 增加 这 个 值 来 让 节点 离线 判断 更 加 宽大 一 些 。 

Phi 阔 值 与 增 量 故障 检测 器 
自从 Cassandra 在 Facebook 开始 开发 起 ， 就 使 用 了 一 种 称 为 增 量 故障 检测 器 
(AFD) 的 节点 故障 检测 机 制 。 这 个 故障 检测 器 会 为 每 个 进程 (或 节点 ) 给 出 一 
个 数值 。 这 个 值 称 为 Phi。 这 个 值 的 输出 方式 被 设计 为 根据 变化 的 网 络 状况 ， 自 
适应 地 从 下 向 上 增长 的 ， 而 不 是 一 个 二 元 条 件 ， 只 检查 服务 器 是 否 正常 工作 。 





配置 文件 中 的 Phi 判定 阅 值 可 以 用 来 调整 故障 检测 器 的 灵敏 度 。 较 低 的 值 提高 
灵敏 度 ， 更 高 的 值 则 降低 灵敏 度 ， 这 并 不 是 线性 的 。 


Phi 值 代表 了 一 个 节点 可 能 是 下 线 了 的 嫌疑 程度 。Cassandra 这 样 的 使 用 AFD 
的 应 用 可 以 为 它们 输出 的 Phi 值 指定 一 个 变量 条 件 。Cassandra 使 用 这 个 机 制 ， 
通常 可 以 在 10 秒 内 发 现 节点 宕 机 。 

你 可 以 阅读 Phi 增 量 故 障 检 测 的 原始 论文 http://ddg.jaist.ac.jp/pub/HDY+04. 
pdf，Cassandra 的 设计 正 是 基于 此 论文 的 。 


6.11 附加 工具 


本 节 讨 论 一 些 Cassandra 自 带 的 杂项 工具 ， 可 以 帮助 你 配置 Cassandra, 











6.11.1 查看 键 值 
你 可 以 通过 一 个 名 为 sstablekeys 的 脚本 来 查看 SSTables 中 的 键 值 。 要 运行 这 个 
脚本 ， 只 需要 使 用 把 要 查看 键 值 的 SSTable 的 位 置 输入 给 脚本 即 可 ， 如 下 : 


ebenemorpheus$ bin/sstablekeys /var/lib/cassandra/data/Hotelier/Hotel-1- 
Data.db WARN 10:56:05,928 Schema definitions were defined both locally 
and in cassandra.yaml. 

Definitions in cassandra.yaml were ignored. 

415a435f303433 

415a535f303131 

4341535f303231 

4e594e5f303432 


6.11.2 ”导入 之 前 版 本 的 配置 
如 果 你 在 0.6 版 本 Cassandra 中 使 用 配置 文件 定义 了 一 个 keyspace， 可 能 希望 将 它 
导入 到 0.7 或 更 高 版 本 中 ， 可 以 使 用 一 个 特殊 的 JMX 操作 ，storageService. 








loadSchemaFromYaml () 。 注 意 ， 这 个 方法 有 两 个 重要 警示 : 首先 这 个 方法 按照 设 
计 ， 只 应 该 使 用 一 次 ;其 次 ， E E 0.8 中 不 会 提供 了 。 





从 0.7 版 本 开始 ， 用 户 在 cassandra.yaml 中 的 keyspace 定义 不 会 在 服务 器 启动 的 时 
候 默 认 导 入 。 所 以 ， 你 在 服务 器 第 一 次 局 动 的 时 候 会 看 到 这 条 消息 
INFO config.DatabaseDescriptor: Found table data in data directories. 


Consider using JMX to call org.apache.cassandra.service.StorageService. 
loadSchemaFromYaml(). 


为 了 导入 数据 ， 你 需要 调用 1oadschemaFromYaml JMX 操作 。 不 过 在 调用 这 

令 之 前 ， 还 需要 一 些 准 备 工作 。 首 先 ， 要 从 Sourceforge.net 下 载 mx4j- a 

载 ZIP 文件 并 解压 到 任意 目录 。 之 后 把 lib 目录 中 的 JAR 重 命 名 为 mx4j-tools.jar, 

放 到 Cassandra 的 lib 目录。 这 样 你 就 可 以 进行 JMX 连接 ， 来 与 Cassandra 进行 多 种 

JMX 交互 了 。 我 们 会 在 后 面 讨论 如 何 使 用 JMX 与 Cassandra 交互 ， 不 过 这 里 只 希望 
装 入 keyspace 进行 测试 。 现 在 ， 在 加 入 JAR 包 后 重启 Cassandra, 

















接 下 来 ， 打 开 一 个 终端 ， 输 入 命令 jconsole。 这 会 局 动 一 个 GUI， 打开 Java 自 带 的 
JConsole 工具 。 这 个 工具 可 以 内 省 Java 虚拟 机 ， 并 允许 你 查看 运行 时 的 数据 、 调 用 
通过 JMX SE a 


要 加 载 cassandra.yaml 4E X. ÀJ keyspace, $% th JConsole 图 形 界 面 的 MBeans 标 
签 。 展 开 org.apache.cassandra.service bean， 接 着 点 开 StorageService, 
然后 是 Operations。 点 开 loadSchemaFromYAML 操作 并 点 操作 的 按钮 。 这 将 在 
Cassandra 上 执行 命令 ， 加 载 存 放 在 cassandra.yaml 文件 中 的 schema, 


要 进行 这 个 将 0.6 的 配置 导入 到 0.7 的 一 次 性 操作 ， 需 要 使 用 StorageService 
MBean 的 1oadSchemaFromYaml 操作 。 操 作 方 法 如 图 6-4 所 示 。 


现在 ， 你 应 该 可 以 在 日 志 中 看 到 类 似 这 样 的 信息 : 














:35:47 INFO thrift.CassandraDaemon: Cassandra starting up... 
:35:48 INFO utils.Mx4jTool: mx4j successfuly loaded 
HttpAdaptor version 3.0.2 started on port 8081 


N N 





:40:43 INFO config.DatabaseDescriptor: UTF8Type 
:40:43 INFO config.DatabaseDescriptor: BytesType 
:40:43 INFO config.DatabaseDescriptor: UTF8Type 
:40:43 INFO config.DatabaseDescriptor: TimeUUIDType 











:40:43 INFO config.DatabaseDescriptor: BytesType 
:40:43 INFO config.DatabaseDescriptor: BytesType 








N N ooo | 





:40:43 INFO config.DatabaseDescriptor: 


DatabaseDescriptor 日 志 非 常 有 用 ， 它 显示 出 了 加 载 schema 的 操作 。 
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;andra.thriit.Cassar 
zii à 


6-4. 使 用 jconsole 工具 加 载 cassandra.yaml 中 定义 的 老 的 keyspace 


你 还 可 以 使 用 org.apache.cassandra.config.Converter 类 来 帮助 你 将 storage- 
conf.xml 配置 文件 转化 为 cassandra.yaml 文件 。 如 果 你 从 0.6 升级 到 0.7， 这 应 该 是 
升级 的 第 一 步 。 要 运行 这 个 转化 器 ， 得 使 用 bin 目录 中 的 config-converter 脚本 。 它 
会 读 入 老 配置 文件 ， 转 化 并 将 内 容 导出 。 


A a 
S 如 果 需 要 导入 导出 数据 ，Cassandra 有 两 个 使 用 JSON 的 脚本 : 一 个 用 于 导 
p^ a 入 JSON 到 SSTable， 另 一 个 用 于 将 SSTable 导出 到 JSON。 
15 








6.12 小结 


本 章 中 ， 我 们 看 了 如 何 设置 Cassandra, AAEM API 的 新 的 动态 配置 方法 ， 以 及 
一 些 挖掘 原始 数据 文件 的 自 带 工具 。 我 们 还 看 到 了 如 何 设 置 副本 因子 和 Snitch, LA 
及 如 何 使 用 合适 的 副本 放置 策略 。 


如 果 你 更 喜欢 使 用 图 形 界 面 而 非 命令 行 界面 ， 可 以 了 解 使 用 Chiton 设置 Cassandra, 
这 是 一 个 Brandon Williams 用 Python 写 的 基于 GTK 的 Cassandra 浏览 器 。 这 个 项 
目 可 以 在 http://github.com/driftx/chiton 找到 。 
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现在 ， 我 们 已 经 了 解 了 Cassandra 的 数据 模型 ， 将 继续 研究 Cassandra 读 写 数据 时 进 
行 的 各 种 查询 操作 ， 本 章 中 将 使 用 Cassandra 0.6.7-betal， 这 是 本 章 写 作 时 的 最 新 
版 本 。 


7.1 Cassandra ERDBMS if BJ ^P [s] 


Cassandra 的 模型 的 查询 方法 与 RDBMS 的 有 很 多 不 同 之 处 ， 这 些 都 非常 重要 ， 需 要 
时 时 牢记 。 


7.1.1 没有 Update 查 询 

Cassandra 之 中 ， 并 没有 “update”( 更 新 ) 这 个 初 指令 概念 ， 也 就 是 说 ， 没 有 一 个 
称 为 “update” 的 客户 端 查询 命令 。 不 过 ， 你 可 以 通过 对 一 个 已 经 存在 的 行 键 值 执 
行 一 次 插入 操作 来 完成 同样 的 工作 。 如 果 对 一 个 已 经 存在 的 键 值 执行 一 个 插入 语句 ， 
Cassandra 会 覆盖 已 经 存在 的 匹配 的 列 ， 而 如 果 查 询 中 包含 了 这 个 行 键 值 下 还 不 存在 
的 列 ， 那 么 新 的 列 会 被 插入 。 这 个 操作 是 完全 无 颖 的 。 


7.1.2 ”记录 级 的 写 原 子 性 
Cassandra 在 每 次 写 操作 时 ， 自 动 提供 记录 级 的 原子 性 。 而 在 RDBMS 中 ， 你 必须 指 
定 使 用 行 级 锁 。 虽 然 Cassandra 提供 列 族 级 的 原子 性 ， 但 并 不 保证 隔离 性 。 


7.1.3 不 支持 服务 端 事务 


因为 你 得 将 表 反 缉 式 化 来 创建 第 二 索引 ， 所 以 可 能 需要 将 数据 插入 到 两 个 或 更 多 个 
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表 中 (一 份 放 入 主 表 ， 其 他 的 用 作 反 向 索引 或 第 二 索引 )。 这 意味 着 需要 执行 两 个 插 
入 语句 。 所 以 ， 如 果 应 用 场景 是 如 此 这 般 ， 要 是 一 次 插入 操作 失败 了 ， 就 不 得 不 删 
除 已 经 插入 的 数据 ， 来 进行 手工 的 “ 回 滚 ” 了 。 


更 准确 地 说 ， 对 于 Cassandra 不 支持 事务 这 点 ， 或 许 只 是 因为 这 本 身 就 不 是 
Cassandra 的 设计 目标 。 


7.1.4 没有 重复 键 值 

在 SQL 数据 库 中 ， 如 果 疫 有 定义 某 列 作为 唯一 的 主键 ， 可 以 插入 多 行 一 样 的 值 。 但 
在 Cassandra 中 ， 这 是 不 可 能 的 。 如 果 对 列 族 中 一 个 已 经 存在 的 键 值 写 入 新 值 ， 原 来 
已 经 存在 的 列 就 将 被 覆盖 ， 而 先前 不 存在 的 列 也 将 被 加 入 其 中 。 


7.2 “与 操 作 的 基本 属性 


Cassandra 的 写 操作 有 一 些 值得 注意 的 基本 属性 。 首 先 ，Cassandra 的 写 操作 非常 快 ， 
这 是 因为 它 的 设计 允许 在 写 时 不 进行 任何 磁盘 读 或 定位 (seek) 操作 。memtable 和 
SSTable 让 Cassandra 可 以 不 必 在 写 时 进行 这 些 操作 ， 正 是 这 些 操作 让 很 多 数据 库 变 
慢 的 。Cassandra 中 的 所 有 写 操 作 都 是 追加 写 的 。 























因为 数据 库 的 commit log 和 提示 移交 设计 ，Cassandra 总 是 可 写 的 ， 而 且 ， 在 一 个 
列 族 内 ， 写 操作 总 是 最 小 单元 的 。 


7.3 一致 性 级 别 

Cassandra 的 可 调 一 致 性 级 别 意 味 着 可 以 在 查询 中 指定 需要 多 少 一 致 性 。 高 一 致 性 级 别 
意味 着 更 多 的 节点 需要 响应 这 次 查询 操作 ， 这 样 可 以 提供 更 高 的 一 致 性 保障 ， 确 保 每 
个 副本 都 是 同样 的 值 。 如 果 两 个 节点 的 响应 有 不 同 的 时 间 戳 ， 最 新 的 值 将 会 胜出 ， 并 
返回 给 客户 端 。 在 后 台 ，Cassandra 接 下 来 还 会 进行 读 时 修复 操作 : 它 知道 有 些 副 本 存 
在 过 期 的 数据 ， 并 会 使 用 最 新 的 数据 来 更 新 这 些 副本 ， 保 证 它们 是 一 致 的 。 
Cassandra 中 ， 可 以 在 多 个 一 致 性 级 别 中 进行 选择 ， 相 对 于 写 操作 ， 一 致 性 级 别 对 于 
读 操 作 的 处 理 上 差异 更 大 。 表 7-1 列 出 了 可 用 的 一 致 性 级 别 ， 以 及 这 些 不 同 的 一 臻 
性 级 别 对 于 读 查 询 的 意义 。 


Ña 














一 致 性 级 别 是 基于 配置 文件 中 指定 的 副本 因子 的 ， 而 不 是 系统 中 的 节点 


A EN 
ug. 总 数 。 
Toa 
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表 7-1 


读 一 致 性 级 别 






















































































一 致 性 级 别 $ x 
ZERO 不 支持 。 你 不 能 在 读 操作 时 指定 cL.zERO， 因 为 这 没有 意义 。 这 等 于 说 “不 要 从 任何 
节点 给 我 数据 ” 
ANY 不 支持 。 应 使 用 cL .oNE 
ONE 当 第 一 个 节点 响应 查询 时 ， 立 刻 返 回 该 响应 的 值 。 同 时 会 创建 一 个 后 台 线 程 ， 检 查 这 
个 记录 的 其 他 副本 。 如 果 哪 个 副本 已 经 过 期 了 ， 接 下 来 就 会 进行 读 时 修复 ， 以 确保 所 有 
副本 都 拥有 最 新 的 值 
QUORUM 查询 所 有 节点 。 当 大 部 分 副本 (( 副 本 因子 /2) +1) 返回 的 时 候 ， 把 时 间 惟 最 新 的 值 返 
可 客户 端 。 之 后 ， 如 果 必 要 则 在 后 台 对 其 余 副本 进行 读 时 修复 
ALL 查询 所 有 节点 。 等 待 所 有 节点 响应 ， 并 把 时 间 戳 最 新 的 记录 返回 给 客户 端 。 之 后 ， 如 








果 必 要 的 话 ， 在 后 台 进 行 一 次 读 











时 修复 。 如 果 有 任何 节点 没有 响应 ， 读 操作 都 会 失败 


正如 你 在 表 中 看 到 的 ， 一 致 性 级 别 zero 和 ANY 对 于 读 操作 是 不 支持 的 。 注 意 ， 一 


致 性 级 另 





| one 意味 着 客户 端 将 得 到 第 一 个 给 出 响应 的 市 点 的 值 一 一 即使 这 个 值 是 过 


期 的 。 因 为 在 记录 返回 给 客户 端 之 后 会 进行 读 时 修复 操作 ， 所 以 ， 接 下 来 的 读 操 作 
都 可 以 得 到 一 致 的 值 ， 不 论 响应 的 节点 是 哪 一 个 。 


另 一 个 值得 注意 的 是 ALL。 如 果 指 定 了 cl .ALD， 就 是 在 要 求 所 有 副本 必须 都 给 出 响 
应 ， 如 果 任 何 持 有 这 个 记录 的 节点 宕 机 ， 或 由 于 其 他 任何 原因 发 生 超时 ， 这 个 读 操 


作 都 将 失败 。 


PA 
i 


aa 
QN 








尔 同样 可 以 为 写 操 作 指 定 一 致 性 级 别 ， 


如 果 一 个 节点 在 一 个 指定 的 时 间 内 未 能 响应 查询 ， 则 被 判断 为 无 响应 。 这 
个 时 间 由 配置 文件 中 的 rpc_timeout_in ms 设 定 ， 默 认 值 为 10 秒 。 


不 过 它们 的 含义 有 很 大 区 别 。 不 同一 致 性 级 












































则 写 操作 会 失败 


最 值得 一 提 的 写 一 致 性 级 别 就 是 ANY。 








别 对 于 写 操作 的 含义 如 表 7-2 所 示 。 
表 7-2 写 一 致 性 级 别 
一 致 性 级 别 £ x 
ZERO 在 写 数据 被 记录 之 前 就 返回 ， 写 操作 将 会 在 一 个 后 台 线 程 中 异步 完成 ， 无 法 确保 写 操 
作 一 定 成 功 
ANY 保证 数据 至 少 已 经 写 到 一 个 节点 上 了 ， 提 示 也 被 看 做 是 一 个 成 功 的 写 入 
ONE 保证 在 返回 时 ， 数 据 至 少 已 经 写 入 到 一 个 节点 的 commit log 和 memtable 之 中 了 
QUORUM 保证 多 数 副本 (( 副 本 因子 /2) +1) 已 经 接收 到 数据 了 
ALL 保证 在 返回 时 副本 因子 指定 数量 的 节点 都 接收 到 数据 了 。 如 果 某 个 副本 对 写 操作 无 响 





这 个 级 别 意味 着 确保 写 操作 至 少 到 达 了 一 个 
节点 ， 但 允许 提示 被 看 做 是 一 次 成 功 写 入 。 也 就 是 说 ， 如 果 你 在 进行 写 操作 ， 而 目 
标 节 点 刚好 都 宕 机 了 ， 那 么 服务 器 将 会 自己 记录 下 来 ， 称 为 提示 (hint), 一直 保持 
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到 目标 节点 恢复 为 止 。 当 服务 器 发 现 一 个 节点 恢复 后 ， 会 检查 是 否 存 有 该 节点 的 提 
示 ， 如 果 有 ， 就 会 将 值 写 人 到 恢复 的 节点 上 。 在 很 多 情况 下 ， 生 成 提示 的 节点 并 不 
是 存储 提示 的 证 点 ， 而 是 会 把 提示 发 送 给 宕 机 市 点 的 一 个 没有 此 副本 的 邻居 市 点 。 


写 操作 时 使 用 一 致 性 级 别 oNE， 意 味 着 写 操作 将 被 写 入 到 commit log 和 memtable。 
也 就 是 说 ，cL.oNE 写 入 的 数据 是 持久 化 的 ， 要 达到 高 性 能 、 持 久 化 的 写 入 ， 这 是 可 
用 的 最 低 的 一 致 性 级 别 。 如 果 这 个 节点 在 写 操作 之 后 立刻 掉 线 ， 那 么 数据 仍 将 存在 
在 commit log 之 中 ， 当 节点 重新 恢复 后 可 以 重 放 操 作 ， 保 证 数据 依然 存在 。 


不 论 是 读 操作 还 是 写 操作 ，zERO、ANY 和 oNE 都 被 划分 为 弱 一 致 性 ， 而 ouoRUM 和 
ALL 则 属于 强 一 致 性 。 因 为 Cassandra 中 的 读 写 操作 可 以 分 别 指定 一 致 性 级 别 ， 所 
以 Cassandra 的 一 致 性 被 认为 是 可 调 的 。 在 Cassandra 之 中 ， 要 达到 强 一致 性 ， 可 以 
使 用 如 下 这 个 流行 的 公式 : R+W>N= 强 一 致 性 。 在 公式 中 ，R、W、N 分别 是 读 副 
本 数 、 写 副本 数 和 副本 因子 ， 这 时 ， 所 有 客户 端 都 可 以 得 到 最 新 的 写 入 结果 ， 即 可 
以 得 到 强 一 致 性 。 


7.4 读 操作 的 基本 属性 


Cassandra 的 读数 据 操 作 也 有 一 些 值得 一 提 的 基本 属性 。 首 先 ， 读 数据 非常 容易 ， 
为 你 可 以 连接 集群 中 的 任意 一 个 市 点 来 进行 读 操 作 ， 不 需要 知道 哪个 特定 的 市 点 负 
责 具 体 所 需 的 数据 的 副本 。 如 果 客 户 端 连 接 的 节点 没有 所 需 的 数据 ， 它 会 自己 扮演 
协调 节点 的 角色 ， 根 据 令 牌 范围 ， 从 拥有 数据 的 节点 读 取 数 据 。 


要 完成 读 操 作 ，Cassandra 需要 进行 磁盘 定位 操作 ， 但 可 以 通过 增加 内 存 来 加 速 读 操 
作 。 如 果 你 发 现 操作 系统 在 读 操作 时 有 很 多 分 页 操作 ， 那 么 增加 内 存 可 能 可 以 提高 
性 能 〈 通 常 来 说 ， 打 开 Cassandra 的 各 种 缓存 效果 会 更 好 )。Cassandra 必须 要 等 待 
一 些 同步 响应 〈 根 据 一 致 性 级 别 和 副本 因子 的 要 求 )， 之 后 还 要 根据 需要 进行 读 时 修 
复 。 


基于 上 述 这 些 原因 ， 读 操作 肯定 会 比 写 操作 更 慢 。 分 区 器 并 不 影响 读 操作 的 速度 。 
在 进行 区 域 查 询 时 ， 使 用 OPP 会 显著 变 快 ， 因 为 它 让 你 更 容易 判断 哪个 节点 没有 所 
需 的 数据 。 分 区 器 的 职责 是 进行 一 致 哈 希 ， 将 键 值 映 射 到 节点 。 此 外 ， 你 还 可 以 选 
择 行 缓存 和 键 值 缓存 策略 来 提升 性 能 (参考 第 11 章 )。 
























































7.5 API 


本 市 会 给 出 Cassandra API 的 一 个 基本 概述 ， 这 样 我 们 开始 读 写 数据 的 时 候 ， 这 些 
生僻 的 名 词 不 会 看 起 来 那么 难 懂 。 我 们 已 经 知道 了 列 、 超 级 列 和 列 族 这 些 概 念 了 : 
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列 族 包含 了 列 或 是 超级 列 ， 超 级 列 只 包含 列 GEB TI FLANBE BE ES EERI Y ) 5 
列 包含 名 / 值 对 和 时 间 改 。 


在 关系 型 数据 库 中 ，SELECT (选取 )、INSERT (48A). UPDATE (更 新 ) 和 
DELETE (删除 ) 正如 它们 本 身 通俗 的 含义 一 样 。 但 Cassandra API 中 的 结构 却 没 
有 这 么 直接 ， 让 新 手 可 能 有 些 费 解 ， 毕 竞 现 实生 活 中 并 没有 一 个 “切片 区 间 (slice 
range)”， 对 这 些 名 词 需 要 一 个 适应 的 过 程 。 








首先 你 需要 理解 两 个 基本 概念 : 区 间 (range) 和 切片 (slice)。 许 多 查询 都 使 用 这 
两 个 名 词 定 义 ， 而 它们 起 先 可 能 有 些 让 人 迷惑 。 


列 是 按照 类 型 排序 的 (由 Comparewith 指定 ) ， 而 行 是 按照 它们 的 分 区 器 
排序 的 。 








区 间 和 切片 


区 间 基 本 源 于 数学 的 “区 间 ” 概 念 ， 当 你 有 一 组 有 序 元 素 时 ， 可 以 通过 指定 开始 元 
素 和 结束 元 素来 指定 一 个 子 集 。 区 间 指 从 开始 到 结束 之 间 的 所 有 元 素 ， 无 一 例外 。 





区 间 通 常 指 〈 行 ) 键 值 的 范围 。 而 切片 则 用 来 指 一 行 之 中 的 一 个 范围 内 的 列 。 





区 间 依 据 列 族 的 比较 器 (comparator) 来 工作 。 也 就 是 说 ， 给 定 列 a、b、c、a 和 
e， 其 上 的 区 间 (a,c) 包含 列 a、b 和 c。 所 以 ， 如 果 你 有 1000 个 名 字 为 长 整 型 的 
列 ， 可 以 指定 查询 名 字 是 35 到 45 这 个 区 间 之 内 的 列 。 通 过 使 用 区 间 ， 可 以 取出 所 
有 指定 的 范围 〈 称 为 一 个 区 间 切 片 ) 之 内 的 列 ， 或 者 也 可 以 同样 批量 更 新 一 个 区 间 
之 内 的 元 素 。 


一 行 中 可 能 会 拥有 上 百 个 列 ， 但 你 不 太 可 能 希望 用 一 个 查询 把 它们 全 都 取出 来 。 列 是 
有 序 存储 的 ， 于 是 提供 了 区 间 查 询 这 一 手段 ， 可 以 一 次 取出 名 称 在 一 定 范围 之 内 的 列 。 




















区 间 查 询 需 要 使 用 有 序 分 区 器 (OrderPreservingPartitioner) ， 这 样 
键 值 就 可 以 有 序 返 回 ， 其 顺序 是 由 分 区 器 使 用 的 码 页 (UTF-8 或 en_US ) 
来 定义 的 。 

















当 使 用 随机 分 区 器 并 指定 区 间 查 询 时 ， 无 法 指定 比 “all” 更 罕 的 区 间 。 这 显然 会 有 
很 大 开销 ， 因 为 可 能 会 包含 更 多 的 网 络 传输 。 而 且 可 能 导致 错过 键 值 。 因 为 同时 可 
能 正在 进行 一 次 更 新 ， 这 时 行 扫描 将 会 错失 在 你 当前 处 理 的 内 容 之 前 放 到 索引 中 的 
更 新 。 
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还 有 一 点 可 能 会 引起 误解 。 当 你 使 用 随机 分 区 器 的 时 候 ， 必 须 明 白 ， 区 间 查 询 会 首 
先 对 键 值 求 哈 希 值 。 所 以 ， 如 果 使 用 从 “Alice” 到 “Alison” 之 间 的 范围 ， 查 询 将 
对 每 个 键 值 求 哈 希 值 ， 返 回 值 并 不 是 Alice 到 Alison 之 间 的 自然 值 ， 而 是 这 两 个 值 
的 哈 希 值 之 间 的 键 值 范围 。 





如 下 是 使 用 随机 分 区 器 时 ， 查 找 某 特定 键 值 的 读 操 作 的 基本 流程 。 首 先 ， 对 键 值 求 
哈 希 值 ， 随 后 客户 端 将 会 连 上 集群 中 的 一 个 任意 布点 。 这 个 布点 将 会 把 请 求 路 由 到 
拥有 这 个 键 值 的 节点 。 首 先 会 查找 memtable， 查 看 这 个 键 值 是 否 存在 。 如 果 没 有 发 
Bü. 会 从 最 新 的 文件 开始 ， 通 过 Bloom filter 查询 每 个 文件 。 一 旦 通过 Bloom filter 
找到 键 值 ， 就 会 打开 相应 的 数据 文件 来 查找 列 值 。 


7.6 设置 与 插入 数据 
我 们 首先 来 看 插入 ， 因 为 你 需要 数据 库 里 有 些 内 容 来 进行 查询 。 在 本 节 中 ， 我 们 建 
立 一 个 Java 项 目 ， 并 学 习 一 个 完整 的 例子 ， 来 看 如 何 插入 数据 ， 再 将 数据 读 出 。 


首先 ， 从 http://cassandra.apache.org 下 载 Cassandra。 二 进 制 版 本 很 适合 于 起 步 应 
用 ， 如 果 你 遇 到 问题 的 话 ， 可 以 参考 第 2 章 


现在 ， 让 我 们 创建 一 个 新 项 目 来 测试 一 下 我 们 的 成 绩 吧 。 这 里 使 用 Eclipse 中 的 
Java 项 目 。 首 先 ， 创 建新 项 目 ， 然 后 将 一 些 JAR 包 添 加 到 classpath Z: Log4J 
的 JAR 包 用 于 输出 日 志 ( 别 忘 了 为 你 自己 的 类 设置 相应 的 属性 文件 ) ; Thrift 库 名 
为 libthrift-r917130.jar， 其 中 包含 了 org.apache.thrift 类 ; Cassandra 的 JAR 包 
apache-cassandra-x.x.x.jar， 其 中 包含 了 org.apache.cassandra 包 下 的 各 个 类 。 
我 们 还 需要 SLF4J 日 志 工 具 (API 和 实现 的 JAR 包 都 需要 )， 这 是 Cassandra 需要 
的 。 最 后 ， 添 加 JVM 的 参数 ， 来 把 log4j.properties 文件 加 入 到 classpath 之 中 : 


























-Dlog4j.configuration-file:///home/eben/books/cassandra/1log4j.properties 


Ha 
o 
S 


在 Eclipse 中 ， 可 以 通过 创建 一 个 新 的 运行 配置 (Run Configuration) 来 添 
加 log4j.properties 文件 。 单 击 参数 (Arguments) 标签 ， 然 后 在 虚拟 机 参数 
(VM Argument) 文本 域 ， 添 加 上 面 的 代码 样 例 里 指定 的 参数 一 一 当然 ， 你 
需要 改 成 你 自己 的 属性 文件 的 路 径 。 





























我 的 log4j.properties 文件 如 下 所 示 : 


# output messages into a rolling log file as well as stdout 
log4j.rootLogger-DEBUG,stdout,R 


# stdout 
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log4j 
log4j 
log4j 


.appender.stdout-org.apache.1og4j.ConsoleAppender 
.appender.stdout.layout-org.apache.log4j.PatternLayout 
.appender.stdout.layout.ConversionPattern-$5p %d{HH:mm:ss, SSS} $m$n 


# rolling log file 


log4j 
log4j 
log4j 
log4j 





log4j 


.appender.R-org.apache.log4j.RollingFileAppender 
.appender.file.maxFileSize-5MB 

.appender.file.maxBackupIndex-5 
.appender.R.layout-org.apache.log4j.PatternLayout 
.appender.R.layout.ConversionPattern-$5p [$t] $d([ISO8601) $C $F (line 


SL) $min 


# This points to your logs directory 
log4j.appender.R.File-cass-client.log 


为 了 简单 起 见 ， 我 们 使 用 了 默认 keyspace 和 配置 。 现 在 启动 服务 器 ， 并 创建 一 个 
如 例 7-1 所 示 的 类 。 这 个 例子 将 要 建立 一 个 到 Cassandra 的 连接 ， 并 写 入 一 个 新 行 ， 
包含 name 和 age 两 个 列 。 我 们 之 后 会 读 取 这 行 的 一 个 列 值 ， 再 之 后 读 取 整 行 。 


例 7-1: SimpleWriteRead.java 





package com.cassandraguide.rw; 


import java.io.UnsupportedEncodingException; 
import java.util.List; 


import org.apache.cassandra.thrift.Cassandra; 

import org.apache.cassandra.thrift.Clock; 

import org.apache.cassandra.thrift.Column; 

import org.apache.cassandra.thrift.ColumnOrSuperColumn; 
import org.apache.cassandra.thrift.ColumnParent; 

import org.apache.cassandra.thrift.ColumnPath; 

import org.apache.cassandra.thrift.ConsistencyLevel; 
import org.apache.cassandra.thrift.InvalidRequestException; 
import org.apache.cassandra.thrift.NotFoundException; 
import org.apache.cassandra.thrift.SlicePredicate; 
import org.apache.cassandra.thrift.SliceRange; 

import org.apache.cassandra.thrift.TimedOutException; 
import org.apache.cassandra.thrift.UnavailableException; 
import org.apache.log4j.Logger; 

import org.apache.thrift.TException; 

import org.apache.thrift.protocol.TBinaryProtocol; 
import org.apache.thrift.protocol.TProtocol; 

import org.apache.thrift.transport.TFramedTransport; 
import org.apache.thrift.transport.TSocket; 

import org.apache.thrift.transport.TTransport; 


public class SimpleWriteRead { 











private static final Logger LOG = Logger.getLogger (SimpleWriteRead.class); 





// 设置 一 些 常 量 
private static final String UTF8 = "UTF8"; 
private static final String HOST - "localhost"; 
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private static final int PORT - 9160; 
private static final ConsistencyLevel CL - ConsistencyLevel.ONE; 


/ / 不 处 理 这 之 中 的 异常 


public static void main(String[] args) throws UnsupportedEncoding- 





Exception, InvalidRequestException, UnavailableException, 
TimedOutException, TException, NotFoundException { 





TTransport tr - new TSocket(HOST, PORT); 

//0.7 ZW framed transport 是 默认 设置 

TFramedTransport tf - new TFramedTransport (tr); 
TProtocol proto - new TBinaryProtocol(tf); 
Cassandra.Client client = new Cassandra.Client (proto); 
tf.open(); 

client.set keyspace("Keyspacel"); 








String cfName = "Standardı"; 
byte[] userIDKey = "i".getBytes(); // 这 是 行 键 值 


Clock clock = new Clock(System.currentTimeMillis()); 





// 创建 名 称 列 的 一 个 表述 
ColumnPath colPathName = new ColumnPath(cfName); 
colPathName.setColumn("name".getBytes (UTF8)); 


ColumnParent cp - new ColumnParent (cfName); 


// 插入 姓名 列 
LOG.debug("Inserting row for key " + new String(userIDKey)); 
client.insert (userIDKey, cp, 
new Column("name".getBytes(UTF8), 
"George Clinton".getBytes(), clock), CL); 


// 插入 年 龄 列 
client.insert(userIDKey, cp, 
new Column("age".getBytes(UTF8), 
"69".getBytes(), clock), CL); 


LOG.debug("Row insert done."); 


// 只 读 姓 名 列 

LOG.debug("Reading Name Column:"); 

Column col - client.get(userIDKey, colPathName, 
CL).getColumn(); 








LOG.debug("Column name: " + new String(col.name, UTF8)); 
LOG.debug("Column value: " « new String(col.value, UTF8)); 
LOG.debug("Column timestamp: " + col.clock.timestamp); 





// 创建 一 个 片 ， 来 表示 要 读 取 的 列 范 围 的 起 始 值 和 终止 值 

// 这 里 使 用 的 是 all 

SlicePredicate predicate = new SlicePredicate(); 
SliceRange sliceRange - new SliceRange(); 
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sliceRange.setStart (new byte[0]); 
sliceRange.setFinish(new byte[0]); 
predicate.setSlice range (sliceRange); 


LOG.debug("Complete Row:"); 
// 读 取 这 行 的 所 有 列 
ColumnParent parent = new ColumnParent (cfName); 
List«ColumnOrSuperColumn» results - 
client.get slice (userIDKey, 

parent, predicate, CL); 








/ / 通过 循环 读 取 各 列 ， 输 出 各 列 的 值 
for (ColumnOrSuperColumn result : results) ( 
Column column - result.column; 
LOG.debug(new String(column.name, UTF8) + " : " 
+ new String(column.value, UTF8)); 


) 


tf.close(); 


LOG.debug("All done."); 


} 
} 
这 个 例子 的 输出 结果 如 下 所 示 : 
DEBUG 14:02:09,572 Inserting row for key 1 
DEBUG 14:02:09,580 Row insert done. 
DEBUG 14:02:09,580 Reading Name Column: 
DEBUG 14:02:09,585 Column name: name 
DEBUG 14:02:09,586 Column value: George Clinton 
DEBUG 14:02:09,586 Column timestamp: 1284325329569 
DEBUG 14:02:09,589 Complete Row: 
DEBUG 14:02:09,594 age : 69 
DEBUG 14:02:09,594 name : George Clinton 
DEBUG 14:02:09,594 A11 done. 














补充 一 点 ， 这 不 是 Cassandra 所 特有 的 特性 ， 使 用 Java， 你 都 可 以 很 方便 
地 利用 Date 对 象 封装 long 型 的 时 间 戳 ， 得 到 更 加 用 户 友好 的 表达 形式 ， 


用 法 如 下 : new Date (col.timestamp) ;o 








T 








现在 ， 我 们 展开 介绍 所 做 的 工作 。 首 先 ， 我 们 连接 到 Cassandra 服务 器 : 


TTransport tr = new TSocket(HOST, PORT); 

//0.7 中 新 的 默认 方法 是 分 帧 传输 

FramedTransport tf = new TFramedTransport (tr); 
TProtocol proto = new TBinaryProtocol(tf); 
Cassandra.Client client - new Cassandra.Client (proto); 
tf.open(); 

client.set keyspace("Keyspacel"); 


这 里 我 们 使 用 了 分 帧 传输 (framed transport), 3X 4& Cassandra 0.7 中 的 默认 设置 。 
ERRE] S Cassandra 的 一 个 名 为 Keyspacel 的 keyspace, 
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然后 ， 我 们 创建 列 族 的 名 称 、 用 做 行 键 值 的 值 ， 以 及 插入 时 需要 指定 的 时 钟 : 


String cfName = "Standardı"; 
byte[] userIDKey = "1".getBytes(); // 行 键 值 


Clock clock = new Clock(System.currentTimeMillis()); 
接 下 来 ， 我 们 使 用 带 有 列 路 径 的 客户 端 对 象 ， 插 入 新 值 : 
ColumnParent cp = new ColumnParent (cfName); 


/ / 插入 name 列 
LOG.debug("Inserting row for key " « new String(userIDKey)); 
client.insert (userIDKey, cp, 
new Column("name".getBytes(UTF8), 
"George Clinton".getBytes(), clock), CL); 


插入 操作 需要 行 键 值 和 列 对 象 ， 列 对 象 中 包含 列 名 和 我 们 期 望 赋 给 它 的 值 。 同 时 我 
们 还 需要 指定 一 个 时 钟 值 ， 用 以 标记 插入 执行 的 时 间 ， 以 及 指定 的 一 致 性 级 别 。 


之 后 ， 重 复 一 次 类 似 的 工作 ， 在 同一 行 插入 age 列 ， 值 为 69: 


client.insert (userIiDKey, cp, 
new Column ("age".getBytes (UTF8), 
"69".getBytes(), clock), CL); 


这 里 ， 我 们 已 经 在 一 行 里 插入 了 两 列 ， 并 且 已 经 准备 好 读 出 来 进行 检验 了 。 


要 验证 插入 的 值 是 否 被 正确 读 出 ， 可 使 用 客户 端的 set 方法 ， 传 人 要 读 取 的 行 键 值 
和 列 路 径 (如 下 代码 是 name 列 ) ， 并 指定 这 个 操作 需要 的 一 致 性 级 别 ; 
ColumnPath colPathName = new ColumnPath(cfName); 
colPathName.setColumn("name".getBytes (UTF8)); 


Column col = client.get(userIDKey, colPathName, 
CL).getColumn(); 


LOG.debug("Column name: " + new String(col.name, UTF8)); 
LOG.debug("Column value: " « new String(col.value, UTF8)); 
LOG.debug("Column timestamp: " + col.clock.timestamp); 


每 列 的 值 都 有 甚 自己 的 时 间 改 (包装 为 一 个 时 钟 对 象 ) ， 因 为 列 〈 而 非 行 ) 是 一 个 原 
子 级 的 单元 。 如 有 果 你 使 用 关系 型 数据 库 的 时 候 ， 习 惯用 时 间 惟 列 来 记录 最 近 被 更 新 
的 时 间 ， 对 这 一 点 可 能 感到 有 些 不 适应 。 在 Cassandra 中 ， 没 有 标记 行 被 最 后 更 新 
时 间 的 东西 ， 更 新 总 是 以 列 为 粒度 的 。 


因为 Cassandra 会 为 列 名 和 值 返回 一 个 字 节 数组 ， 我 们 使 用 这 个 字 节 数组 创建 一 个 
字符 串 对 象 ， 这 样 就 可 以 在 应 用 中 使 用 它 了 〈 比 如 这 里 的 写 日 志 操作 ) 。 时 钟 对 象 存 
储 为 一 个 长 整 型 (代表 从 Unix 纪元 开始 时 计算 的 毫秒 数 ) ， 如 果 需 要 ， 我 们 可 以 使 
用 java.util.Date 对 象 来 包装 它 。 
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使 用 get 方法 ， 并 指定 列 路 径 和 其 他 参数 ， 可 以 读 出 一 个 列 的 值 。 而 现在 ， 我 们 将 
取出 一 行 之 中 的 一 个 列 “ 区 间 ”( 称 为 切片 )。 这 里 ， 我 们 使 用 切片 谓词 


SlicePredicate predicate = new SlicePredicate(); 
SliceRange sliceRange - new SliceRange(); 
sliceRange.setStart (new byte[0]); 
sliceRange.setFinish(new byte[0]); 
predicate.setSlice range (sliceRange); 


切片 谓词 (slice predicate) 是 一 个 容器 对 象 ， 使 用 这 个 对 象 ， 可 以 通过 指定 起 
始点 和 终止 点 来 指定 我 们 想 读 的 列 的 范围 。 这 里 ， 指 定 开 始点 和 终止 点 都 是 new 
byte[0] ， 表 示 希 望 读 取 所 有 列 。 


现在 ， 谓 词 已 经 设置 好 了 ， 可 以 运行 这 个 区 间 切 片 查询 ， 读 取 一 行 中 的 所 有 列 ， 然 
后 就 可 以 用 循环 来 逐个 处 理 了 : 


ColumnParent parent = new ColumnParent (cfName); 
List«ColumnOrSuperColumn» results - 
client.get slice(userIDKey, parent, predicate, CL); 


如 上 ， 这 个 get_slice 查询 使 用 了 我 们 创建 的 谓词 ， 同 时 还 有 两 个 新 参数 : 
ColumnOrSuperColumn 类 和 一 个 column parent, ColumnOrSuperColumn 类 IE 
如 它 的 名 字 所 指 的 : 代表 了 Thrift 返回 的 一 个 列 或 一 个 超级 列 。Thrift 不 支持 继承 ， 
所 以 这 个 类 用 于 将 类 和 超级 类 打包 在 一 个 对 象 中 (具体 是 什么 取决 于 查询 )。 如 果 返 
回 的 是 一 个 列 ， 客 户 端 就 只 读 取 其 值 ， 而 如 果 和 返回 的 是 超级 列 ， 客 户 端 就 会 从 超级 
列 中 再 读 取 一 列 。 

column parent 是 到 一 组 列 的 上 层 ( 列 族 或 超级 列 ) 的 路 径 。 因 为 我 们 要 通过 get_ 
slice 接收 一 组 列 ， 需 要 指定 容纳 查找 的 这 组 列 的 列 族 。 现 在 ， 可 以 针对 这 行 来 循 
环 处 理 这 些 列 了 ， 打 印 输出 每 列 的 三 个 属性 ， 之 后 关闭 连接 : 


for (ColumnOrSuperColumn result : results) { 
Column column = result.column; 











LOG.debug(new String(column.name, UTF8) + " 
+ new String(column.value, UTF8)); 


) 


tf.close(); 


你 可 以 使 用 insert 操作 来 添加 值 或 是 覆盖 已 有 值 。 要 更 新 一 个 值 ， 只 要 对 同样 的 
键 值 使 用 新 的 列 值 ， 执 行 一 次 insert 就 可 以 了 。 


你 还 可 以 一 次 插入 多 个 值 ， 这 将 在 7.13 市 中 介绍 。 


7.7 ”使 用 简单 的 get 


使 用 get 操作 可 以 依据 列 路 径 取 出 列 或 超级 列 : 
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ColumnOrSuperColumn get(byte[] key, ColumnPath column path, 
ConsistencyLevel consistency level) 


191 7-2 演示 了 如 何 操作 。 
例 7-2: 使 用 get 操作 





package 


com.cassandraguide.rw; 














// 这 里 省 略 了 imports 


public class GetExample { 


private static final Logger LOG = Logger.getLogger(GetExample.class); 


private static final String UTF8 - "UTF8"; 

private static final String HOST - "localhost"; 

private static final int PORT - 9160; 

private static final ConsistencyLevel CL - ConsistencyLevel.ONE; 


public static void main(String[] args) throws UnsupportedEncodingException, 





InvalidRequestException, UnavailableException, TimedOutException, 
TException, NotFoundException ( 


TTransport tr - new TSocket(HOST, PORT); 

/ /0.71 中 新 的 默认 方法 是 分 帧 传输 

FramedTransport tf = new TFramedTransport (tr); 
TProtocol proto - new TBinaryProtocol(tf); 








Cassandra.Client client = new Cassandra.Client (proto); 
tf.open(); 
client.set keyspace("Keyspacel"); 





String cfName = "Standardı"; 
byte[] userIDKey = "i".getBytes(); // 行 键 值 


Clock clock = new Clock(System.currentTimeMillis()); 





// 创建 name 列 的 描述 


ColumnParent cp = new ColumnParent (cfName); 


/ / 插入 name 列 
LOG.debug("Inserting row for key " « new String(userIDKey)); 
client.insert (userIDKey, cp, 
new Column("name".getBytes(UTF8), 
"George Clinton".getBytes(), clock), CL); 


LOG.debug("Row insert done."); 
/xx 进行 get 操作 */ 
LOG.debug("Get result:"); 

// 读 取 这 行 的 所 有 列 


ColumnPath path = new ColumnPath(); 
path.column family - cfName; 
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) 


path.column - "name".getBytes(); 


ColumnOrSuperColumn cosc - client.get(userIDKey, path, CL); 
Column column - cosc.column; 

LOG.debug(new String(column.name, UTF8) + " : " 

+ new String(column.value, UTF8)); 

// get 完成 


tr.close(); 


LOG.debug("All done."); 


这 里 ， 我 们 先进 行 了 一 次 插入 ， 以 便 可 以 取出 数据 。 我 们 创建 一 个 client 对 象 ， 并 
调用 了 这 个 对 象 的 get 方法 ， 这 个 方法 有 三 个 参数 : 行 键 值 、 列 路 径 、 一 致 性 级 
别 。 其 中 ， 列 路 径 设置 了 要 查找 的 列 名 称 。 注 意 ， 列 名 称 和 值 都 是 二 进 制 的 (对 于 
Java 客户 端 来 说 ， 
数组 。 之 后 得 到 的 列 的 值 同 样 也 是 字 节 数组 ， 为 了 处 理 结果 ， 我 们 还 要 再 将 它 转化 


成 字符 串 。 
中 ， 我 们 插入 了 name 和 age 两 个 列 ， 但 因为 列 路 径 只 指定 了 一 个 想 查询 的 


在 本 例 


EL 


rN 











列 ， 所 以 我 们 只 得 到 了 age。 输 出 结果 如 下 所 示 : 


DEB 
DEB 
DEB 
DEB 
DEB 


UG 
UG 
UG 
UG 
UG 





14: 
14: 
14: 
14: 
14: 


:42, 
:42, 
:42, 
:42, 
:42, 


265 
273 
273 
282 
282 


Inserting row for key 1 
Row insert done. 

Get result: 

name : George Clinton 
All done. 


7.8 数据 准备 


这 里 ， 我 们 使 用 命令 行 接口 来 创建 一 些 有 不 同 列 的 键 值 ， 以 便 后 面 查询 : 





defaultGKeyspacel 
Value inserted. 
defaultGKeyspacel 
Value inserted. 
defaultGKeyspacel 
Value inserted. 
defaultGKeyspacel 
Value inserted. 
defaultGKeyspacel 


现在 ,我 们 有 两 行 数据 ， 








set Standardl['k1']['a']-'1' 
set Standardl['k1']['b']-'2' 
set Standardl['k1']['c']-'3"' 
set Standardl['k2']['a']-'2.1' 


set Standardl['k2']['b']-'2.2' 


第 一 行 有 三 列 ， 第 二 行 有 两 列 。 


7.9 切片 谓词 


切片 谓词 (slice predicate) 可 以 用 于 读 和 写 操作 ， 是 用 于 指定 一 组 列 的 限定 词 。 你 


BOB). ， 所 以 我 们 在 查询 时 必须 将 字符 串 列 名 转化 成 字 节 





读 写 数据 | 


135 


可 以 使 用 两 种 方式 来 指定 切片 谓词 : 一 组 列 名 或 是 一 个 切片 区 间 。 如 果 你 知道 所 要 
取出 的 几 个 列 的 名 称 ， 那 么 可 以 明确 地 指定 名 称 ， 而 如 果 不 知道 它们 的 确切 名 称 ， 
或 者 由 于 其 他 需要 得 取出 一 个 范围 之 内 的 所 有 列 ， 那 么 就 可 以 使 用 切片 区 间 来 指定 


这 个 范围 。 








简单 起 见 ， 我 使 用 了 包含 的 例子 。 但 是 ， 一 行 之 中 有 很 多 很 多 列 对 
p^ Cassandra 来 说 是 家 常 便 饭 ， 所 以 别 被 这 些 例子 误导 。Cassandra 可 以 存储 
海量 的 数据 ， 在 Cassandra 0.7 之 中 ， 每 行 可 以 容纳 20 亿 列 之 多 。 





要 使 用 切片 谓词 ， 首 先 要 创建 包含 你 想 获取 的 列 名 的 谓词 对 象 ， 然 后 将 它 传 给 读 操 
作 。 


7.9.1 使 用 get_slice 读 取 特 定 列 名 
如 果 你 希望 取出 一 行 中 名 叫 “a” 和 “b” 的 列 ， 可 以 使 用 指定 列 名 的 谓词 。 


使 用 set_slice 操作 ， 可 以 取出 列 族 或 是 超级 列 中 的 一 组 列 。 它 会 根据 列 名 或 列 名 
的 区 间 取 出 值 来 ， 返 回 列 或 者 超级 列 。set_slice 操作 的 声明 形式 如 下 : 





List«ColumnOrSuperColumn» get slice(byte[] key, 
ColumnParent column parent, SlicePredicate predicate, ConsistencyLevel cl) 


使 用 方法 如 例 77-3 所 示 。 


例 7-3: SlicePredicate.java 


package com.cassandraguide.rw; 





// imports 已 省 略 
public class SlicePredicateExample { 


public static void main(String[] args) throws Exception { 
Connector conn - new Connector(); 
Cassandra.Client client - conn.connect(); 


SlicePredicate predicate - new SlicePredicate(); 
List«byte[]» colNames = new ArrayList«byte[1»2(); 
colNames.add("a".getBytes()); 
colNames.add("b".getBytes()); 
predicate.column names - colNames; 


ColumnParent parent = new ColumnParent ("Standardı"); 
byte[] key = "ki1".getBytes(); 


List«ColumnOrSuperColumn» results = 
client.get slice(key, parent, predicate, ConsistencyLevel.ONE); 





for (ColumnOrSuperColumn cosc : results) { 
Column c = cosc.column; 
System.out.println(new String(c.name, "UTF-8") +" 
+ new String(c.value, "UTF-8")); 


) 


conn.close(); 
System.out.println("All done."); 


) 


在 这 个 例子 中 ， 只 有 指定 的 列 会 被 取出 ， 其 他 列 则 被 忽略 。 这 个 查询 返回 一 个 
ColumnOrSuperColumn 对 象 的 列表 。 为 我 们 知道 所 查询 的 是 普通 的 列 族 , 所 以 
直接 从 底层 RPC 机 制 (Thrift) 返回 的 co1umnorSuperColumn 数据 结构 中 取出 列 
的 值 ， 最 后 在 一 个 循环 中 读 取 这 些 列 的 名 称 和 值 。 


例子 的 输出 如 下 所 示 : 




















a $ d 
b $2 
All done. 


7.9.2 ”通过 切片 区 间 获 取 一 组 列 
有 时 你 不 希望 指定 所 要 取出 的 每 个 列 ， 一 个 可 能 的 原因 是 要 取出 很 多 列 ， 也 有 可 能 
是 因为 你 不 知道 所 有 这 些 列 的 名 称 。 


要 读 取 一 行 中 一 个 指定 区 间 的 列 ， 可 以 指定 开始 和 结束 的 列 ，Cassandra 就 会 给 你 整 
个 区 间 内 的 列 ， 包 括 两 端的 列 ， 区 间 范 围 的 确定 是 根据 列 族 的 比较 器 排序 而 得 到 的 。 
首先 创建 切片 谓词 ， 之 后 创建 区 间 ， 再 把 谓词 传递 给 读 操 作 之 前 设置 区 间 。 这 是 一 
个 例子 : 























SlicePredicate predicate = new SlicePredicate(); 
SliceRange sliceRange - new SliceRange(); 
sliceRange.setStart ("age".getBytes()); 
SsliceRange.setFinish("name".getBytes()); 
predicate.setSlice range (sliceRange); 


在 执行 get. slice 操作 时 ， 查 询 会 返回 这 两 个 指定 的 列 ， 以 及 所 有 通过 比较 器 排序 
比较 落 在 两 个 列 之 间 的 列 〈 可 能 依照 文字 、 数 字 或 其 他 什么 东西 来 排序 )。 比 如 ， 如 
果 这 行 也 有 一 个 “email” 列 ， 它 也 会 被 返 





Iz] 


你 必须 根据 比较 器 来 给 出 列 名 ， 注 意 开始 列 和 结束 列 的 顺序 。 比 如 ， 如 果 以 name 
列 开 始 、 以 age 列 结束 ， 就 会 抛 出 一 个 异常 : 
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InvalidRequestException(why:range finish must come after start in the order 
of traversal) 


awT, SREAP JEJEREHEÉÉR SQL 一 样 得 到 列 的 值 ， 而 是 得 到 完 
整 的 列 数 据 结构 ， 包 括 名 称 、 值 和 时 间 戳 。 








计数 

可 以 使 用 slice Range 结构 的 计数 (count) 属性 来 限制 切片 区 间 返 回 行 的 数量 。 假 
设 我 们 有 一 个 几 百 列 的 行 ， 可 以 指定 一 个 包含 很 多 列 的 区 间 ， 但 限制 只 返回 结果 的 
前 10 列 ， 如 下 : 








SliceRange sliceRange = new SliceRange(); 
SliceRange.setStart("a".getBytes()); 
SliceRange.setFinish("d".getBytes()); 
sliceRange.count = 10; 


再 强调 一 次 ,“ 第 一 ” 列 要 依照 列 族 的 比较 器 指定 的 顺序 而 定 


逆序 
你 还 \ 可 以 通 过 设置 切片 区 间 的 reversed-true 属性 来 取出 呈现 逆序 的 列 。 如 果 有 
age, email 和 name 三 个 列 ， 那 么 设置 reversed 为 true， 得 到 的 列 的 顺序 就 是 


name、email 和 age。 


7.9.3 ”取出 一 行 中 的 所 有 列 
要 读 出 一 行 中 的 所 有 列 ， 也 需要 使 用 有 切片 区 间 的 谓词 ， 但 只 要 给 区 间 的 起 始 和 结 
束 参 数 一 个 空 字 节 数组 就 可 以 了 ， 像 这 样 ， 


SlicePredicate predicate = new SlicePredicate(); 
SliceRange sliceRange - new SliceRange(); 
SliceRange.setStart(new byte[01); 
SliceRange.setFinish(new byte[01); 
predicate.setSlice range(sliceRange); 


然后 ， 就 可 以 把 这 个 增加 的 谓词 对 象 和 其 他 必要 参数 (如 一 致 性 级 别 之 类 的 ) 一 起 
传 给 get_slice 操作 了 。 


7.10 get range. slices 


类 似 于 使 用 区 间 来 访问 一 组 列 ， 我 们 也 可 以 访问 一 个 键 值 或 令 牌 区 间 。 可 以 把 一 个 
KeyRange 对 象 传 给 一 个 get. range slices 操作 ， 来 定义 一 组 要 访问 的 键 值 。 











这 里 的 一 个 不 同 是 ， 作 为 get range slices 的 参数 ，KeyRange 数据 结构 可 以 指 
为 令 牌 


定 键 值 ， 也 可 以 指定 令 牌 。 键 值 区 间 包 含 开始 点 ， 而 令 牌 不 包括 开始 点 。 因 





是 环 状 分 布 的 ， 所 以 结束 令 牌 可 以 小 于 起 始 令 牌 。 
API 中 定义 了 get_range slices 操作 ， 其 操作 方式 大 致 如 下 : 


List«KeySlice» results = client.get range slices(parent, predicate, keyRange, 


ConsistencyLevel); 
(817-4 给 出 了 一 个 完整 的 使 用 区 间 切 片 的 例子 。 


例 7-4: GetRangeSliceExample.java 





package com.cassandraguide.rw; 


//imports 已 省 略 








public class GetRangeSliceExample { 


public static void main(String[] args) throws Exception { 
Connector conn - new Connector(); 
Cassandra.Client client - conn.connect(); 


System.out.println("Getting Range Slices."); 
SlicePredicate predicate - new SlicePredicate(); 
List«byte[]» colNames = new ArrayList«byte[12(); 
colNames.add("a".getBytes()); 
colNames.add("b".getBytes()); 
predicate.column names - colNames; 


ColumnParent parent = new ColumnParent ("Standardı"); 


KeyRange keyRange - new KeyRange(); 





keyRange.start key = "kl".getBytes(); 
keyRange.end key - "k2".getBytes(); 
/ / 返回 一 组 键 值 切片 











List«KeySlice» results = 
client.get range slices(parent, predicate, keyRange, 
ConsistencyLevel.ONE); 


for (KeySlice keySlice : results) { 
List«ColumnOrSuperColumn» cosc = keySlice.getColumns(); 


System.out.println("Current row: " 十 
new String(keySlice.getKey())); 


for (int i = 0; i < cosc.size(); i++) ( 
Column c = cosc.get(i).getColumn(); 
System.out.println(new String(c.name, "UTF-8") +" 


+ new String(c.value, "UTF-8")); 
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} 
conn.close(); 


System.out.println("All done."); 














^ a 
NN 这 个 程序 假设 你 已 经 在 一 些 行 键 值 里 有 一 些 数 据 了 ， 见 7.8 节 。 
ac 
程序 的 输出 如 下 : 


Getting Range Slices. 
Current row: kl 


a: 1 

B 2 

Current row: k2 
a 2.1 

b: 2.2 

All done. 


虽然 名 称 中 包含 了 “切片 ”(slice) fü “KH” (range) 两 个 词 ， 起 初 看 起 来 可 能 有 
些 反 常 ， 不 过 实际 上 这 并 不 是 问题 。 只 要 记 住 切片 指 一 组 列 ， 而 区 间 指 一 组 键 值 即 





可 。 在 这 个 例子 中 ， 我 们 根据 多 个 行 键 值 取出 多 个 有 


7.11 multiget slice 


Ils 


使 用 get_slice， 可 以 根据 一 个 指定 的 行 键 值得 到 一 组 列 名 ， 而 使 用 multiget_ 
slice 则 可 以 根据 一 组 行 键 值 来 取出 一 组 列 ， 这 里 的 行 键 值 可 以 通过 一 个 column 
parent 和 一 个 谓词 来 选择 。 也 就 是 说 ， 可 以 给 定 不 止 一 个 行 键 值 ， 取 出 每 个 行 键 值 
对 应 的 行 里 的 一 些 列 。 所 以 ，multget slice 的 意思 就 是 对 应 多 行 的 多 列 。 





Ñ a 
. 曾经 有 个 方法 称 为 multiget， 不 过 现在 已 
a " 
S RET. 
DS 





multiget slice 的 操作 方法 是 这 样 的 : 





Map<byte [] ,List<ColumnOrSuperColumn>> results 














Efr JH multiget slice * 





client.multiget slice(rowKeys, parent, predicate, CL); 


和 之 前 一 样 ， 要 指定 parent 和 谓词 ， 这 里 还 要 给 出 一 组 希望 查询 的 行 键 值 。 这 里 的 
行 键 值 是 一 个 字 节 数组 列表 ， 每 个 字 节 数组 对 应 于 一 个 键 值 的 名 字 。 





A 
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返回 的 结果 类 型 是 Map«byte[]l,List«ColumnOrSuperColumn»», 看 起 来 是 个 复 
杂 的 数据 结构 ， 不 过 实际 上 非常 简单 。Map 是 一 个 键 / 值 对 集合 ， 甚 中 作为 键 值 的 
字 节 数列 就 是 行 键 值 ， 也 就 是 说 ， 在 我 们 的 例子 里 有 两 个 键 值 ， 就 是 每 个 对 应 一 个 
行 键 值 。 返 回 的 映射 里 的 每 个 byter] 键 值 指向 一 个 列表 ， 列 表 包 含 了 一 个 或 多 个 
ColumnOrSuperColumn 对 象 。 使 用 这 个 结构 是 因为 Thrift 不 支持 继承 。 你 必须 知 
道 列 族 的 类 型 是 Standard 还 是 super， 这 样 才能 从 中 得 到 正确 的 数据 对 象 。 在 我 
们 的 例子 中 ， 你 可 以 从 ColumnOrSuperColumn 中 取出 column (super column 是 
空 的 ) ， 然 后 使 用 column 对 象 读 取 名 和 值 。 如 果 需 要 ， 还 能 从 中 得 到 时 间 戳 。 


使 用 multiget_slice 的 例子 位 于 例 7-5 之 中 。 


例 7-5: MultigetSliceExample.java 





package com.cassandraguide.rw; 


//imports 已 省 略 





public class MultigetSliceExample { 
private static final ConsistencyLevel CL - ConsistencyLevel.ONE; 
private static final String columnFamily = "Standardı"; 


public static void main(String[] args) throws 
UnsupportedEncodingException, InvalidRequestException, 
UnavailableException, TimedOutException, 
TException, NotFoundException { 


Connector conn - new Connector(); 
Cassandra.Client client - conn.connect(); 


System.out.println("Running Multiget Slice."); 


SlicePredicate predicate - new SlicePredicate(); 
List«byte[]» colNames = new ArrayList«byte[]12(); 
colNames.add("a".getBytes()); 
colNames.add("c".getBytes()); 
predicate.column names - colNames; 


ColumnParent parent = new ColumnParent (columnFamily); 


// 这 里 ， 不 是 指定 一 个 行 键 值 ， 而 是 指定 一 个 列表 
List«byte[]» rowKeys = new ArrayList«byte[l»(0); 
rowKeys.add("kl".getBytes()); 
rowKeys.add("k2".getBytes()); 








/ / 返回 的 结果 页 不 是 一 个 简单 的 列表 ， 而 是 一 个 映射 ， 其 中 的 键 值 是 行 键 什 

// 值 是 每 行 对 应 的 列 数组 

Map«byte[],List«ColumnOrSuperColumn»» results = 
client.multiget slice(rowKeys, parent, predicate, CL); 

















for (byte[] key : results.keySet()) { 
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List«ColumnOrSuperColumn» row = results.get (key); 


System.out.println("Row " + new String(key) + " --» "); 
for (ColumnOrSuperColumn cosc : row) ( 

Column c - cosc.column; 

System.out.println(new String(c.name, "UTF-8") + " 


+ new String(c.value, "UTF-8")); 

) 

conn.close(); 

System.out.println("All done."); 

) 

数据 库 中 已 经 有 了 一 些 键 值 了 ， 我 尽量 保持 例子 的 简短 ， 以 使 数据 的 结构 形象 化 。 
我 们 有 很 多 在 a 和 c 之 间 的 列 ， 不 过 只 对 a 和 c 两 列 有 兴趣 ， 所 以 要 指定 了 一 个 切 
片 谓词 来 指定 column names 限制 结果 。 我 们 还 希望 指定 不 止 一 行 的 内 容 ， 所 以 要 
使 用 一 个 字 节 数列 表 来 指示 要 访问 的 行 键 值 。 


上 述 代码 的 运行 结果 如 下 所 示 : 





Running Multiget Slice. 
Row k2 --» 

a r 2.1 

Row k1 --> 

a:1 

G' a 

All done. 


可 以 看 出 ， 键 值 “k2” 对 应 的 行 没 有 “c” 列 ， 所 以 Cassandra 不 会 返回 这 列 的 内 容 。 
而 行 “k1” 有 “b” 列 ， 但 我 们 的 切片 中 并 没有 这 样 查 询 ， 所 以 同样 不 会 得 到 。 











央 为 我 们 使 用 了 Thrift 作为 Cassandra 的 底层 通信 RPC 机 制 ， 返 回 的 结果 
将 是 无 序 的 ， 所 以 不 得 不 在 客户 端 重新 排序 。 这 是 因为 Thrift 不 能 保持 顺 
序 。mnultiget 实际 上 是 多 个 get 请 求 的 包装 而 已 。 




















7.12 删除 


在 Cassandra 中 删除 数据 和 关系 型 数据 库 中 有 很 大 不 同 。 在 关系 型 数据 库 中 ， 只 要 
简单 地 使 用 delete 语句 ， 指 定 要 删除 的 一 行 或 多 行 就 可 以 了 。 但 在 Cassandra 之 中 ， 
删除 操作 并 不 会 立刻 删除 数据 。 这 有 个 简单 的 原因 : Cassandra 的 持久 化 、 最 终 一 
致 性 和 分 布 式 的 设计 。 如 果 Cassandra 直接 删除 数据 ， 而 此 时 有 个 节点 下 线 了 ， 它 
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将 无 法 收 到 删除 操作 。 一 旦 这 个 节点 重新 上 线 ， 它 会 错误 地 认为 ， 其 他 收 到 删除 操 
作 的 节点 丢失 了 数据 (因为 它 自己 错过 了 删除 操作 ， 所 以 数据 还 在 )， 它 会 开始 修 
复 其 他 节点 。 因 此 ，Cassandra 需要 更 为 复杂 的 机 制 来 支持 删除 。 这 个 机 制 称 为 医 碑 


(tombstone). 











幕 碑 是 一 个 删除 操作 发 起 的 特殊 标记 ， 作 为 一 个 占 位 符 ， 用 来 覆盖 删除 的 值 。 如 果 
某 个 副本 没有 收 到 删除 操作 ， 事 后 幕 碑 可 以 在 它 再 次 在 线 的 时 候 传播 给 它 。 这 个 设 
计 的 直接 效果 是 ， 数 据 占用 的 空间 不 会 在 删除 之 后 就 立刻 腾空 。 每 个 布点 都 会 跟踪 
其 上 所 有 墓碑 的 年 龄 。 一 旦 它们 的 年 龄 达到 了 gc_grace_seconds 设置 的 时 间 (ER 
认 是 10 天 ) ， 就 会 运行 一 次 压 紧 操作 ， 将 幕 碑 垃圾 回收 ， 释 放 占 用 的 磁盘 空间 。 


























ua. 压 紧 操作 中 ， 莫 碑 也 会 被 放 在 一 起 ， 合 并 后 的 数据 是 排 好 序 的 ， 并 且 会 为 
新 的 合并 的 数据 创建 一 个 索引 ， 新 合并 的 、 有 序 的 、 有 索引 的 数据 会 被 写 
入 到 一 个 单独 的 新 文件 中 。 














1 记 住 ，SSTable 是 不 可 修改 的 ， 所 以 数据 并 没有 在 SSTable 中 被 删除 。 在 
a 
t 

(1 








这 里 的 假设 是 ， 压 紧 之 前 留 下 的 10 天 时 间 足 够 让 一 个 坏 节 点 修复 上 线 了 。 如 果 你 乐 
意 ， 可 以 把 这 个 垃圾 回收 时 间 降 的 更 低 ， 来 让 磁盘 空间 更 快 被 释放 。 


我 们 来 运行 一 个 例子 ， 删 除 之 前 插入 的 数据 。 广 意 ，Cassandra 中 没有 “delete” 操 
作 ， 而 是 remove， 而 且 它 也 不 是 真 的 “ 移 除 ”(remove) 而 只 是 一 个 写 (GEB 
iu) 操作 。 因 为 remove 操作 实际 是 墓碑 的 写 操 作 ， 所 以 你 还 是 要 为 这 个 操作 指定 
时 间 惟 ， 因 为 如 果 有 多 个 客户 端 写 入 数据 ， 时 间 礁 更 新 的 操作 会 胜出 一 一 这 些 写 操 
作 可 能 有 墓碑 ， 也 可 能 有 新 的 值 。Cassandra 并 不 区 分 这 些 不 同 的 写 操作 ， 只 要 时 间 
惟 更 新 就 能 胜出 。 


如 下 是 一 个 简单 的 删除 操作 : 





Connector conn = new Connector(); 
Cassandra.Client client - conn.connect(); 


String columnFamily = "Standardı"; 
byte[] key = "k2".getBytes(); // 行 键 值 


Clock clock = new Clock(System.currentTimeMillis()); 
ColumnPath colPath = new ColumnPath(); 
colPath.column family - columnFamily; 


colPath.column = "b".getBytes(); 


client.remove(key, colPath, clock, ConsistencyLevel.ALL); 
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System.out.println("Remove done."); 


conn.close(); 


7.19 批量 变更 


第 4 章 里 已 经 介绍 了 很 多 用 于 批量 揪 入 的 批量 变更 (batch mutate) 操作 ， 所 以 这 里 
就 不 再 重复 例子 了 ， 而 只 是 概述 一 下 。 


要 一 次 进行 大 量 的 插入 或 更 新 操作 ， 可 以 使 用 batch mutate 方 法 ， 而 不 是 
insert 方法 。 和 关系 型 世界 中 的 批量 更 新 类 似 ，batch_mutate 操作 允许 在 一 次 
调用 中 ， 对 成 组 的 很 多 键 值 进行 操作 ， 以 此 可 以 避免 多 次 操作 带 来 的 网 络 开 销 。 如 
果 patch mutate 在 一 系列 的 更 新 操作 中 的 某 一 个 发 生 了 失败 ， 不 会 被 退回 ， 所 以 
任何 已 经 完成 的 更 新 操作 都 会 继续 生效 。 对 于 这 种 错误 ， 客 户 端 可 以 重 试 patch_ 
mutate 操作 。 


^a 











曾经 有 一 个 称 为 patch_insert 的 操作 ， 不 过 已 经 不 推荐 使 用 了 。 





7.13.1 批量 删除 
第 4 章 的 应 用 中 并 没有 包含 任何 删除 操作 ， 所 以 这 里 多 介绍 一 些 。 


使 用 remove 操作 可 以 删除 一 列 ， 而 使 用 batch mutate fll Deletion 结构 可 以 一 
次 进行 一 组 复杂 的 删除 操作 。 


你 可 以 创建 一 个 列 名 的 列表 来 指示 要 删除 的 列 ， 之 后 将 它们 间接 地 传 给 patch 
mutate。 这 里 说 是 “间接 ”的 ， 是 因为 你 需要 创建 多 个 数据 结构 来 运行 删除 。 


首先 ， 创 建 一 个 要 删除 的 列 名 的 列表 。 将 它 传 给 slicepPredicate， 再 将 slice- 
Predicate f 给 Deletion 对 5, 然 后 将 它 f 给 Mutation 对 象 ， 最 后 再 将 
Mutation 对 象 传 给 batch mutate, 


下 面 的 代码 简单 演示 了 如 何 进行 批量 删除 操作 。 首 先 创 建 siicePredicate 对 象 装 
载 要 删除 的 列 名 。 这 里 我 们 只 要 删除 “b” 列 。 然 后 创建 Deleteion 对 象 ， 里 面 设 
置 这 个 谓词 ， 最 后 创建 Mutation 对 象 ， 在 其 中 设置 这 个 Deletion。 


一 旦 设置 好 了 Deletion 对 象 ， 你 就 可 以 创建 变更 映射 。 这 个 映射 使 用 字 节 数组 键 
值 指向 所 要 进行 删除 的 行 。 你 可 以 使 用 有 相同 或 不 同 Mutation 对 象 的 不 同 的 键 值 进 
行 批量 删除 操作 。 这 个 映射 的 值 是 一 个 内 层 的 映射 ， 这 个 映射 本 身 使 用 要 变更 的 列 族 
名 称 字符 串 作 为 键 值 。 而 它 的 值 则 指向 一 个 变更 操作 列表 ， 是 要 进行 的 操作 。 
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String columnFamily = "Standardı"; 
byte[] key = "k2".getBytes ; // 这 是 行 键 值 


Clock clock = new Clock(System.currentTimeMillis()); 


SlicePredicate delPred - new SlicePredicate(); 
List«byte[]» delCols = new ArrayList«byte[l»(0); 


// 这 里 我 们 指定 列 "b"， 甚 实 还 可 以 指定 更 多 
delCols.add("b".getBytes()); 
delPred.column names - delCols; 





Deletion deletion = new Deletion(); 
deletion.predicate - delPred; 
deletion.clock = clock; 

Mutation mutation - new Mutation(); 
mutation.deletion = deletion; 


Map«byte[], Map«String, List«Mutation»»» mutationMap = 
new HashMap«byte[], Map«String, List«Mutation»»»(); 


List«Mutation» mutationList = new ArrayList«Mutation»(); 
mutationList.add (mutation); 


Map«String, List«Mutation»» m = new HashMap«String, List«Mutation»»(); 
m.put(columnFamily, mutationList); 


// 就 改动 这 个 行 键 值 ， 虽 然 我 们 实际 可 以 改动 更 多 
mutationMap.put(key, m); 
client.batch mutate(mutationMap, ConsistencyLevel.ALL); 


还 有 一 种 方法 可 以 用 Deletion 结构 来 指定 要 删除 的 项 H: 使 用 SliceRange TK 
列 的 Dist， 这 样 就 可 以 删除 一 个 列 的 区 间 ， 而 不 需要 直接 地 列 出 列 的 名 字 了 。 





7.13.2 ”区间 鬼 影 

你 可 能 听 人 提 过 Cassandra 中 的 “区 间 鬼 影 ”(range ghost) 。 这 是 说 即使 你 删除 了 一 
个 给 定 行 的 所 有 列 ， 仍 然 可 以 在 区 间 切 片 中 返回 这 个 行 ， 但 列 数 据 却 是 空 的 。 这 没 
有 什么 问题 ， 只 是 在 客户 端 迭 代 返 回 的 数据 时 要 注意 。 


7.14 编程 定义 keyspace 和 列 族 


现在 ， 你 也 可 以 通过 API 来 创建 keyspace 和 列 族 了 。 例 7-6 示意 了 如 何 进 行 这 个 操作 。 











例 7-6: DefineKeyspaceExample.java 





package com.cassandraguide.rw; 


//imports 已 省 略 
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/** 
* 演示 如 何 通 过 程序 定义 keyspace 和 列 族 
*/ 


public class DefineKeyspaceExample { 


public static void main(String[] args) throws 
UnsupportedEncodingException, InvalidRequestException, 
UnavailableException, TimedOutException, 
TException, NotFoundException, InterruptedException { 


Connector conn - new Connector(); 
Cassandra.Client client - conn.connect(); 


System.out.println("Defining new keyspace."); 


KsDef ksdef - new KsDef(); 

ksdef.name = "ProgKS"; 

ksdef.replication factor - 1; 

ksdef.strategy class - 
"org.apache.cassandra.locator.RackUnawareStrategy"; 


List«CfDef» cfdefs = new ArrayList«CfDef»(); 
CfDef cfdef1 = new CfDef(); 

cfdefl.name - "ProgCF1"; 

cfdefl.keyspace - ksdef.name; 
cfdefs.add(cfdef1); 

ksdef.cf defs - cfdefs; 
client.system add keyspace (ksdef); 
System.out.println("Defining new cf."); 
CfDef cfdef2 - new CfDef(); 
cfdef2.keyspace - ksdef.name; 
cfdef2.column type - "Standard"; 
cfdef2.name = "ProgCFE"; 
client.system add column family(cfdef2); 


conn.close(); 


System.out.println("All done."); 


7.15 小结 
本 章 中 ， 我 们 看 到 了 如 何 使 用 Cassandra 提供 的 丰富 API 来 进行 各 种 数据 读 写 操作 。 








我 们 过 去 使 用 驱动 来 连接 关系 型 数据 库 。 比 如 ， 在 Java 里 ，JDBC 是 抽象 了 不 同 厂 
商 数 据 库 的 实现 的 API， 提 供 了 一 个 使 用 Statements, PreparedStatements, ResultSets 
等 来 存 取 数据 的 一 致 方法 。 要 和 数据 库 交 互 ， 你 需要 一 个 所 使 用 数据 库 的 驱动 。 比 如 
Oracle、SQL Server 或 是 MySQL， 这 些 数据 库 的 交互 细节 对 于 应 用 开发 者 来 说 是 不 
可 见 的 。 使 用 正确 的 驱动 ， 你 可 以 使 用 多 种 编程 语言 与 多 种 不 同 数据 库 进 行 交 互 。 


Cassandra 有 一 些 不 同 ， 它 没有 驱动 。 如 果 你 决定 使 用 Python 和 Cassandra 交互 ， 将 
无 法 找到 一 个 Cassandra 的 Python 驱动 ， 根 本 就 没有 这 种 东西 。 与 JDBC 的 那 种 将 
数据 库 交 互 从 开发 者 的 角度 抽象 出 来 有 所 不 同 ，Cassandra 使 用 了 一 种 完全 不 同 的 机 
fil, Cassandra 有 一 个 Thrift API 和 Avro 项 目 提供 的 客户 端 生成 层 。 不 过 ， 还 是 有 一 
些 Cassandra 的 高 级 客户 端 ， 它 们 支持 的 语言 包括 Java、Scala、Ruby、C#、Python、 
Perl, PHP, CH 以 及 其 他 语言 ， 是 由 第 三 方 的 开发 者 为 了 便于 自己 的 开发 而 写 的 。 


使 用 这 些 客户 端的 好 处 是 ， 可 以 更 方便 地 将 它们 岁入 自己 的 应 用 中 去 (我们 将 会 
到 如 何 去 做 ) ， 而 且 它们 经 常会 提供 比 基 本 Thrift 接口 更 直 富 的 功能 ， 包 括 连 接 池 和 
JMX 集成 与 监控 。 


在 下 面 的 章节 中 ， 我 们 首先 会 看 到 Thrift 和 Avro 是 如 何 工 作 的 ， 它 们 如 何 用 于 
Cassandra。 之 后 ， 我 们 会 看 到 一 些 更 健壮 的 客户 端 项 目 ， 它 们 是 由 独立 的 开发 者 使 
用 不 同 语言 写成 的 ， 提 供 了 使 用 Cassandra 数据 库 的 多 种 不 同 选择 。 



































P a. 

ws 如 果 你 要 写 一 个 Cassandra 应 用 ， 应 该 使 用 一 个 客户 端 而 不 要 自己 写 底 层 

心 代码 。 唯 一 的 问题 是 如 何 选择 一 个 好 的 客户 端 ， 可 以 紧 跟 Cassandra 本 身 
"^ 的 更 新 步伐 。 
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8.1. 基本 的 客户 端 API 

对 于 Cassandra 0.6 或 更 早 的 版 本 ，Thrift 是 全 部 客户 端 API 的 基础 。 而 在 0.7 版 
本 中 ，Avro 开始 逐渐 获得 支持 ， 这 是 因为 Thrift 接口 有 一 些 局 限 ， 而 且 Thrift 的 
开发 也 不 那么 积极 了 。 比 如 ，Thrift 有 一 些 Bug 已 经 存在 了 一 年 还 没有 关闭 ， 而 
Cassandra 的 追随 者 们 希望 提供 一 个 更 为 活路 的、 吸引 更 多 注意 力 的 客户 端 层 。 
Thrift 目前 的 版 本 是 0.2， 从 2009 年 开始 就 没有 新 的 版 本 发 布 ， 文 档 也 非常 少 。 


在 本 书写 作 的 时 候 ， 还 不 知道 Thrift 和 Avro 可 以 一 起 被 支持 多 长 时 间 ， 两 者 都 在 当 
前 的 代码 树 中 。 因 为 无 法 确定 哪 一 种 最 终 会 被 支持 ， 我 在 这 里 会 都 介绍 一 些 。 




















8.2 Thrift 


Thrift 是 一 个 驱动 层 接口 ， 它 提供 了 用 于 客户 端 使 用 多 种 语言 实现 的 API。Thrift 是 
由 Facebook 开发 的 ， 并 在 2008 年 捐 给 了 Apache 基金 会 ， 成 为 了 一 个 孵化 器 项 目 。 
目前 位 于 http:Wincubator.apache.org/thrift， 不 过 ， 如 果 只 是 为 了 Cassandra 使 用 ， 你 
不 需要 单独 下 载 Thrift。 


Thrift 是 个 代码 生成 库 ， 支 持 的 客户 端 语言 包括 C++, C#, Erlang, Haskell, Java, 
Objective C/Cocoa, OCaml, Perl, PHP, Python, Ruby, Smalltalk 和 Squeak。 它 
的 目标 是 为 各 种 流行 的 语言 提供 便利 的 RPC 调用 机 制 ， 而 不 需要 使 用 那些 开销 巨大 
的 方式 ， 比 如 SOAP。 


要 使 用 Thrift， 要 使 用 一 个 语言 中 立 的 服务 定义 文件 ， 描 述 数据 类 型 和 服务 接口 。 
这 个 文件 会 被 用 作 引 擎 的 输入 ， 为 每 种 支持 的 语言 生成 RPC 客户 端 代码 库 。 这 种 静 
态 生成 的 设计 让 它 非 常 容易 被 开发 者 所 使 用 ， 而 且 因 为 类 型 验证 都 发 生 在 编译 期 而 
非 运 行 期 ， 所 以 代码 可 以 很 有 效率 地 运行 。 


» a 











你 可 以 阅读 Thrift 的 作者 写 的 这 篇 全 面 的 论文 来 了 解 Thrift 的 实现 ， 位 于 
http://incubator.apache.org/thrift/static/thrift-20070401.pdf., 





Thrift 的 设计 提供 了 以 下 这 些 特性 。 

。 语言 无 关 的 类 型 
因为 类 型 是 使 用 定义 文件 按照 语言 中 立 的 方式 规定 的 ， 所 以 它们 可 以 被 不 同 的 语 
言 分 享 。 比 如 ，C++ 的 结构 可 以 和 Python 的 字典 类 型 相互 交换 数据 。 


。 通用 传输 接口 
不 论 你 使 用 的 是 磁盘 文件 、 内 存 数据 还 是 socket 流 ， 都 可 以 使 用 同一 段 应 用 代码 。 
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， 协议 无 关 
Thrift 会 对 数据 类 型 进行 编码 和 解码 ， 可 以 跨 协议 使 用 。 


。 支持 版 本 
数据 类 型 可 以 加 入 版 本 信息 ， 来 支持 客户 端 API 的 更 新 。 


Thrift 的 数据 定义 文件 使 用 thrift 扩展 名 。 在 Cassandra 源码 目录 下 ， 有 一 个 目录 叫 
做 interface， 其 中 有 一 个 文件 名 为 cassandra.thrift。 这 个 文件 包含 了 Cassandra 的 数 
据 定义 。 这 里 我 不 引用 整个 文件 了 ， 它 看 起 来 大 臻 是 这 样 的 : 


// 数据 结构 

struct Column { 
1: required binary name, 
2: required binary value, 
3: required i64 timestamp, 





) 


struct SuperColumn { 
1: required binary name, 
2: required list«Column» columns, 


) 


// 异常 
exception NotFoundException { 





} 
// 其 他 
// 服务 API 结构 


enum ConsistencyLevel { 
ZERO = O0, 
ONE - 1, 
QUORUM - 2, 
DCQUORUM = 3, 
DCQUORUMSYNC - 4, 
ALL = 5, 
ANY - 6, 
} 
struct SliceRange { 
1: required binary start, 
2: required binary finish, 
3: required bool reversed-0, 
4: required i32 count-100, 
} 
struct SlicePredicate { 
1: optional list«binary» column names, 
2: optional SliceRange slice range, 
} 
struct KeyRange { 
1: optional string start key, 
: optional string end key, 
optional string start token, 
optional string end token, 
required i32 count-100 


Ul d €) IN 
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/ / 服务 操作 
service Cassandra { 

# auth methods 

void login(1: required string keyspace, 2:required AuthenticationRequest 

auth request) 
throws (1:AuthenticationException authnx, 
2:AuthorizationException authzx), 

i32 get count(1:required string keyspace, 
:required string key, 
:required ColumnParent column parent, 

4:required ConsistencyLevel consistency level-ONE) 
throws (1:InvalidRequestException ire, 2:UnavailableException ue, 
3:TimedOutException te), 


UM p 


//meta-APIs 
/** 列 出 集群 中 定义 的 keyspace */ 


Set«string» describe keyspaces(), 





c 


// 其 他 


这 里 ， 我 使 用 了 一 些 有 代表 性 的 例子 ， 来 示意 Cassandra API 的 Thrift 定义 文件 的 构 
成 。 通 过 这 个 文件 ， 你 可 以 了 解 Thrift 如 何 写 定义 文件 ，Cassandra 客户 端 接 口 可 以 
使 用 哪些 操作 类 型 ， 以 及 它们 可 以 使 用 什么 数据 结构 。 


在 Cassandra 发 布 版 中 ， 包 含 thrift 文件 的 interface 文件 夹 里 ， 还 有 一 个 叫做 thrift 
的 文件 夹 。 这 个 文件 夹 包含 了 一 些 子 文件 夹 ， 每 个 都 是 这 个 Thrift 定义 生成 的 一 种 
语言 的 绑 定 。 


当 编 译 Cassandra 的 时 候 ， 接 下 来 发 生 的 事情 是 这 样 的 。Ant 工具 会 运行 如 下 的 目 
标 ， 来 生成 Java、Python 和 Perl 的 绑 定 : 








«target name-"gen-thrift-java"» 
«echo»Generating Thrift Java code from $(basedir]/interface/ 
cassandra.thrift 
.«/echo» 
«exec executable-"thrift" dir-"$(basedir] 
/interface"» 
«arg line-"--gen java" /> 
«arg line-"-o $(interface.thrift.dir])" /> 
«arg line-"cassandra.thrift" /> 
«/exec» 
«/target» 
«target name-"gen-thrift-py"» 
«echo»Generating Thrift Python code from $([basedir] 
/interface/cassandra.thrift ....«/echo» 
«exec executable-"thrift" dir-"$(basedir]/interface"-» 
«arg line-"--gen py" /> 
«arg line-"-o $(interface.thrift.dir]" /> 
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«arg line-"cassandra.thrift" /» 
«/exec» 
«/target» 
// 其 他 
这 些 Ant 目标 会 直接 调用 Thrift 程序 ， 为 每 种 不 同 的 语言 传送 不 同 的 参数 。 注 意 ， 
发 布 版 中 也 包含 有 Java API， 而 这 些 目标 并 不 会 在 正常 的 编译 中 被 调用 。 所 以 如 果 
你 希望 使 用 Perl 或 是 Python 接口 ， 那 么 ， 需 要 自己 直接 运行 这 些 目标 (或 者 修改 
build.xml 来 在 编译 任务 中 加 入 这 些 目标 ) o 


Ha 








要 生成 其 他 语言 的 Thrift 绑 定 ， 可 以 给 它 传人 其 他 的 - -gen 开关 (比如 
A 


uva. thrift --gen php). 
eus 





这 些 Ant 目标 使 用 Cassandra B lib H 3€ rP HY libthrift-r917130.jar, ik 3$, Thrift 的 
JAR 包 的 版 本 号 会 随 着 Cassandra 的 更 新 而 有 变化 。 


8.2.1 Thrift 对 Java 的 支持 


要 编译 Thrift 的 Java 接口 ， 进 入 到 目录 <thrift-home>/lib/java。 在 终端 里 键入 >ant 
命令 来 运行 build.xml 脚本 。 


8.22 异常 

客户 端 接口 可 能 会 抛 出 儿 种 你 经 常 能 看 到 的 异常 。 下 面 列 出 了 一 些 基 本 异常 ， 解 释 
了 你 为 什么 会 看 到 这 些 异 常 ， 虽 然 有 些 异 常 不 在 Thrift 定义 之 中 。 

* AuthenticationException 


用 户 使 用 了 错误 的 认证 信息 或 是 用 户 不 存在 。 


* AuthorizationException 


用 户 存在 ， 但 没有 权限 访问 这 个 keyspace。 





* ConfigurationException 
24 — ^ 2ECRCBURSUUS PETI PEINE TCOR SI RO ELO UE, ao EC EASIER BERE o m H 
出 这 个 异常 。 如 果 你 忘记 为 keyspace 指定 分 区 器 或 是 endpoint snitch， 或 者 在 只 
接受 正 数 的 配置 项 给 出 了 负 值 或 犯 了 其 他 错误 ， 就 会 抛 出 这 个 异常 。 这 个 异常 不 
通过 Thrift 接口 抛 出 。 

















* InvalidRequestException 
用 户 请 求 的 格式 不 正确 。 这 可 能 是 你 向 一 个 不 存在 的 keyspace 或 列 族 请 求 数据 ， 
或 是 在 请 求 时 没有 给 出 所 有 需要 的 参数 。 
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* NotFoundException 


用 户 请 求 了 一 个 不 存在 的 列 。 


* TException 
当 调用 了 一 个 对 服务 器 来 说 不 合法 的 Thrift 方法 时 会 得 到 这 个 异常 。 这 个 异常 通 
常 是 在 所 使 用 的 版 本 和 服务 器 的 版 本 不 匹配 时 发 生 的 。 这 个 异常 不 通过 Thrift 接 
口 抛 出 ， 而 是 Thrift 本 身 的 一 部 分 。TException 是 无 法 捕捉 的 、 无 法 预见 的 异 
常 ， 服 务 器 端 会 弹出 这 个 异常 ， 然 后 中 断 当 前 的 Thrift 调用 。 它 们 不 是 你 必须 自 
己 定义 的 应 用 异常 。 





* TimedOutException 
响应 所 用 的 时 间 超 出 了 配置 的 极限 ， 默 认 极限 为 10 秒 钟 。 通 常 这 是 因为 服务 器 
过 载 、 节 点 故障 但 故障 尚未 被 发 现 ， 或 是 请 求 的 数据 量 非常 大 造成 的 。 

















UnavailableException 
Cassandra 的 读 写 过 程 中 ， 响 应 的 副本 数 没 有 达到 要 求 的 数量 。 这 个 异常 不 通过 
Thrift 接口 抛 出 。 


8.2.3 Thrift 小 结 

如 果 你 希望 在 项 目 中 直接 使 用 Thrift， 那 么 在 Windows 上 使 用 时 有 一 些 先 决 条 件 
(参考 http://wiki.apache.org/thrift/ThriftInstallationWin32), ， 并 且 很 多 东西 都 可 能 
错 。 这 部 分 因为 Thrift 本 身 还 太 年 轻 ， 在 传输 的 实现 上 有 很 多 不 足 ， 而 且 自 从 开源 
以 来 并 没有 得 到 很 多 直接 关注 ，Cassandra 可 能 会 转向 Avro。 


8.3 Avro 


Apache Avro 项 目 是 一 个 数据 序列 化 ， 是 针对 RPC 系统 从 Cassandra0.7 版 本 开始 引 
入 的 Thrift 的 替代 品 。Avro 由 Doug Cutting 创立 ， 他 最 著名 的 事迹 可 能 算是 创立 了 
Apache Hadoop 项 目 和 Google MapReduce 算法 的 实现 。 


Avro 提供 很 多 和 Thrift 以 及 其 他 数据 序列 化 与 RPC 机 制 非 常 类 似 的 特性 ， 类 似 系 
统 还 有 Google 的 Protocol Buffer。 这 些 特性 包括 : 


。 强健 的 数据 结构 ; 
。 用 于 RPC 调用 的 高 效 的 、 节 省 空间 的 二 进 制 格式 ; 
e 易于 与 Python、Ruby、Smalltalk、Perl、PHP 和 Objective-C 等 动态 类 型 语言 集成 。 


Avro AJLA Thrift 不 具备 的 优点 ， 特 别 是 应 用 的 RPC 不 需要 静态 代码 生成 ， 尽 管 





你 可 以 把 静态 代码 生成 作为 一 种 对 静态 类 型 语 
而 且 也 更 加 活跃 。 


运行 Cassandra 的 Ant 文件 时 ， 编 译 目 标 会 在 调用 其 
这 些 文件 和 Thrift 生成 的 文件 一 样 ， 都 


更 加 成 训 (当前 版 本 号 1.32), 


generate 目标 ， 这 就 会 生成 Avro 接口 。 


言 的 优化 。 这 个 项 目 从 某 种 意义 上 说 
其 他 东西 的 同时 ， 调 用 avro- 


放 在 interface 目录 中 。 





cassandra.avpr 文件 ， 


其 中 包含 


要 找到 Cassandra 的 Avro 接口 的 完整 定义 ， 可 以 查看 


了 Cassandra 客户 端 可 以 使 用 的 所 有 消息 和 操作 的 


JSON 定义 。 
{ 
"namespace":  "org.apache.cassandra.avro", 
"protocol": "Cassandra", 
"types": [ 
("name": "ColumnPath", "type": "record", 
"fields": [ 
("name": "column family", "type": "string"], 
("name": "super column", "type": ["bytes", "null"]j, 
("name": "column", "type": ["bytes", "null"]] 
] 
}, 
("name": "Columns", "type": "record", 
"fields": [ 
("name": "name", "type": "bytes"), 
("name": "value", "type": "bytes"], 
"name": "timestamp", "type": "long" } 
] 
)h 
("name": "SuperColumu^, "type": "record^, 
"fields": [ 
"name": "name", "type": "bytes"], 
("name": "columns", "type": ("type": "array", "items": 
"Column"}} 
] 
}, 
// 其 他 
} 
l, 
"messages": { 
"get": { 
"request": [ 
("name": "keyspace", "type": "string"], 
"name": "key", "type": string" y}, 
("name": "column path", "type": "ColumnPath"], 
("name": "consistency level", "type": "ConsistencyLevel"] 
l, 
"response": "ColumnOrSuperColumn", 
"errors": ["InvalidRequestException", "NotFoundException", 
"UnavailableException", "TimedOutException"] 
}， 
"insert": { 
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"request": [ 


("name": "keyspace", "type": "string"}, 

( "name": "key" , "type "e "string" } 

("name": "column path", "type": "ColumnPath"], 

("name": "value", "type": "bytes"], 

("name": "timestamp", "type": "long"], 

("name": "consistency level", "type": "ConsistencyLevel"] 
l; 
"response": "null"; 
"errors": ["InvalidRequestException", "UnavailableException", 


"TimedOutException"] 


}, 
// 其 他 
JSON 格式 非常 简洁 易 懂 。 比 如 ， 可 以 看 到 至 少 有 两 类 消息 : 一 类 表示 取出 请 求 ， 
其 他 代表 插入 请 求 。 每 种 类 型 的 可 能 的 异常 和 它们 的 消息 打包 在 一 起 。 


^a 











每 种 异常 的 含义 已 经 在 8.2 节 讨 论 过 了 。 








8.3.1 Avro Ant 目 标 

Cassandra 的 build.xml 文件 定义 了 两 个 Ant 目标 ， 它 们 在 Cassandra 从 源码 开始 编 
译 时 会 被 执行 ， 使 用 Cassandra 的 lib 目录 中 的 avro-1.2.0-dev.jar 进行 代码 生成 。 这 
两 个 目标 如 下 所 示 : 





gise 
生成 avro 代码 
—— 9 
«target name-"check-avro-generate". 

«uptodate property-"avroUpToDate" 
srcfile-"$[interface.dir])/cassandra.avpr" 
targetfile-"$[interface.avro.dir]/org/apache/cassandra/avro/ 

Cassandra.java" /» 
«taskdef name-"protocol" 
classname-"org.apache.avro.specific.ProtocolTask"- 

«classpath refid-"cassandra.classpath" /> 

«/taskdef» 
«taskdef name-"schema" classname-"org.apache.avro.specific. 
SchemaTask"» 
«classpath refid-"cassandra.classpath" /> 
«/taskdef» 
«taskdef name-"paranamer" 
classname-"com.thoughtworks.paranamer.ant. 
ParanamerGeneratorTask"- 
«classpath refid-"cassandra.classpath" /> 
«/taskdef» 
«/target» 


«target name-"avro-generate" unless-"avroUpToDate" 
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depends-"init,check-avro-generate"» 
«echo»Generating avro code...«/echo» 
«protocol destdir-"$[interface.avro.dir]"- 
«fileset dir-"$[interface.dir]"» 
«include name-"**/*.avpr" /> 
«/fileset» 
«/protocol» 


«schema destdir-"$[interface.avro.dir)"» 
«fileset dir-"$[interface.dir]"» 
«include name-"**/*.avgc" /> 
«/fileset» 
«/schema» 
«/target» 


生成 Thrift 接口 的 Ant 任务 是 直接 调用 Thrift 可 执行 文件 (和 命令 行 执行 是 一 样 
HJ), [B Avro 目标 就 复杂 多 了 。check-avro-generate 目标 使 用 了 一 个 称 为 
avroUpToDate 的 自 定义 属性 。avro-generate 目标 运行 之 前 ， 必 须 由 check- 
avro-generate 任务 先 确定 所 有 文件 更 新 到 最 新 版 本 后 设置 这 个 变量 。 如 果 生 成 
HJ 2c P'9g API 文件 没有 跟 上 当前 的 schema 的 更 新 ，cassandra.avpr 文件 就 会 被 重 
新 读 入 ， 然 后 生成 <CASSANDRA_HOME>/interface/avro 目录 下 的 源 代码 。org. 
apache.cassandra.avro.Cassandra.java 文件 表示 运行 时 的 Java Avro 接口 。 











Ant 的 <taskdef> 标 签 定义 了 其 后 的 目标 可 以 运行 的 自 定义 任务 。 这 里 我 们 有 两 
个 自 定 义 任务 : SchemaTask 和 paranamerGeneratorTask。SchemaTask 是 
Avro 本 身 的 一 部 分 ， 用 于 针对 所 描述 的 协议 生成 Java 接口 和 类 。ParaNamer JE 
(paranamer-generator-2.1.jar) 用 于 允许 在 运行 时 访问 非 专 有 的 方法 和 构造 器 的 参数 
名 ， 通 常 这 些 名 称 会 被 编译 器 优化 掉 。 它 会 读 取 Avro 生成 的 Java 类 的 源 代码 目录 ， 
输出 到 编译 输出 目录 里 的 用 于 维护 源码 中 定义 的 名 称 的 Java 类 。 


8.3.2 Avro 规范 


Avro 项 目 定义 了 一 个 规范 ， 理 论 上 说 ， 你 可 以 根据 规范 写 自 己 的 实现 。Avro 支持 
六 种 复杂 类 型 : 记录 (record)、 枚 举 (enum)、 数 组 (array). BAT (map)、 联 合 
(union) 和 定 长 (fixed), 
i a 

如 果 你 感 兴趣 的 话 ， 可 以 阅读 http://avro.apache.org/docs/current/spec.html 
Wa. 的 完整 Avro 规范 ， 不 过 ， 要 使 用 Cassandra 并 不 需要 这 样 做 。 


， 
[Sd 








Avro 的 定义 使 用 JavaScript 对 象 标记 (JSON), DA schema 的 方式 写成 。 这 一 点 和 
Thrift 非常 不 同 ， 在 Avro 中 ， 当 数据 读 取 的 时 候 ，schema 总 会 和 数据 在 一 起 。 这 
是 Avro 的 一 个 优点 ， 因 为 这 样 在 传输 数据 的 时 候 就 可 以 传送 更 少 的 类 型 信息 了 ， 
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序列 化 也 因此 更 加 紧密 和 高 效 。 因 为 Avro 将 数据 和 schema 存放 在 一 起 ， 这 意味 着 
任何 程序 之 后 都 可 以 来 处 理 数据 ， 独 立 于 RPC 机 制 。 





8.3.3 Avro 小 结 

在 Cassandra 0.7 版 本 中 ，Avro 是 它 的 RPC 和 数据 序列 化 机 制 。 它 会 生成 用 于 远 
程 客户 端 与 数据 库 交 互 的 代码 。 它 在 业界 得 到 支持 ， 而 且 受 惠 于 更 大 、 也 更 知名 的 
Hadoop 项 目 。 在 可 以 预见 的 未 来 ， 它 将 会 很 好 地 支持 Cassandra。 





关于 Avro 的 更 多 信息 ， 可 以 参考 它 的 Apache 项 目 页 面 : http://avro.apache.org。 


8.4 ”Git 简介 


Cassandra 并 不 直接 使 用 Git， 但 了 解 一 点 Git 至 少 对 你 使 用 那些 用 了 Gic 的 客户 
端 有 帮助 。( 如 果 你 对 Git 非常 熟悉 ， 可 以 跳 过 本 节 。) 很 多 开源 项 目 最 近 都 在 握 
GitHub 迁移 。Git 是 一 个 比较 新 的 开源 代码 管理 系统 ， 由 Linus Torvalds 所 写 ， 用 
于 支持 他 的 Linux 内 核 开发 。 它 带 有 很 多 社会 化 的 特性 。GitHub 是 一 个 Git 项 目 托 
管 站 点 ， 使 用 Ruby on Rails 创建 ， 提 供 免 费 的 和 商业 的 服务 。 








下 面 这 些 我 们 将 要 一 一 了 解 的 客户 端 都 在 使 用 Git: Web 控制 台 、Hector、Pelops 
以 及 其 他 Cassandra 相关 的 卫星 项 目 ， 如 Twissandra (之 前 作为 一 个 例子 讨论 过 的 ， 
使 用 Cassandra 写成 的 Twitter 实现 )。 


要 得 到 一 个 Git 项 目的 代码 的 最 简单 方法 是 找到 项 目的 GitHub 主页 ， 单 击 “Download 
Source” 按 钮 ， 来 下 载 项 目 主干 的 .tar 或 .zip 包 。 





如 果 你 在 使 用 Linux 发 布 版 ， 比 如 Ubuntu， 安 装 Git 非常 简单 。 只 要 打开 
Wa. 终端 , 输入 >apt-get install git， 就 会 安装 好 Git 供 你 使 用 。 








如 果 你 需要 修改 项 目 源 代码 〈 比 如 创建 一 个 分 支 项 目 ) ， 就 需要 使 用 Git 客户 端 。 如 
RREH Windows， 首 先 就 要 安装 Cygwin POSIX 模拟 器 ， 然 后 安装 Git。 接 下 来 ， 
到 你 所 感 兴趣 的 项 目的 GitHub 页 面 ， 找 到 项 目的 Git URL。 打 开 终端 ， 在 你 准备 放 
源码 的 目录 使 用 clone 命令 。 输 出 类 似 这 样 : 


.../gitrep»git clone http://github.com/suguru/cassandra-webconsole.git 
Initialized empty Git repository in C:/git/cassandra-webconsole/.git 
remote: Counting objects: 604, done. 

remote: Compressing objects: 100$ (463/463), done. 

remote: Total 604 (delta 248), reused 103 (delta 9) 

Receiving objects: 100% (604/604), 6.24 MiB | 228 KiB/s, done. 
Resolving deltas: 100% (248/248), done. 





现在 ， 我 们 有 了 一 个 以 Git 项 目 命名 的 子 目 录 了 ， 这 样 就 可 以 编译 并 使 用 它 了 。 关 
于 Git 的 完整 讨论 超出 了 本 书 的 范围 ， 不 过 你 可 以 从 GitHub.com 了 解 更 多 知识 。 该 
网 站 的 帮助 文档 位 于 http://help.github.com， 男 一 个 网 站 http://gitref.org 也 为 Git 49) 
学 者 提供 了 不 错 的 参考 信息 。 


ue E 
8.5 ”连接 客户 端 市 点 
一 旦 设置 好 了 和 集群， 客户 端 连接 到 哪个 节点 就 无 关 紧 要 了 。 因 为 Cassandra 节点 是 
对 称 的 ， 任 何 节 点 都 可 以 作为 一 个 请 求 代 理 ， 将 请 求 信息 发 送 到 负责 数据 所 在 区 间 
的 节点 


有 一 些 方法 可 以 让 一 切 组 织 得 更 为 有 序 和 高 效 。 














8.5.1 客户 端 列表 

最 直接 的 连接 到 集群 的 方法 是 维护 一 个 服务 器 的 地 址 或 主机 名 的 列表 ， 并 在 客户 端 
循环 使 用 这 个 列表 。 你 允许 客户 端 从 这 个 列表 之 中 ， 按 照 某 种 规则 选择 连接 的 服务 
器 ， 可 能 是 随机 选择 或 是 顺序 选择 。 这 种 方法 可 以 看 做 是 某 种 廉价 的 负载 均衡 器 。 


这 个 方法 的 好 处 是 易于 设置 ， 并 且 不 需要 任何 人 工 干 预 。 对 于 测试 而 言 ， 这 没有 问 
题 ， 不 过 这 种 方法 极为 难以 管理 。 








8.5.2 ”循环 DNS 

另 一 个 可 选 方案 是 创建 一 个 DNS 记录 来 代表 集群 中 的 一 组 服务 器 。 使 用 循环 DNS 
(round-robin DNS) 让 客户 端 可 以 简单 干净 地 连接 服务 器 。 Pu m 
要 任何 维护 工作 ， 也 不 需要 客户 端 逻辑 来 决定 连接 不 同 的 节点 ， 是 推荐 的 方法 。 





8.5.8 负载 均衡 器 
第 三 个 方法 是 给 Cassandra 集群 配备 一 个 负载 均衡 器 ， 配 置 所 有 客户 端 都 连接 到 它 。 
负载 均衡 器 将 作为 配置 扩展 点 。 


8.6 Cassandra Web 控 制 台 


Cassandra 有 一 个 Web 控制 台 ， 由 Suguru Namura 提供 ， 代 码 托管 在 GitHub。 这 个 
控制 台 通过 使 与 Cassandra 的 交互 简单 化 ， 来 进行 各 种 任务 和 查看 集群 信息 。 在 介 
绍 你 将 要 使 用 的 与 数据 库 交 互 的 真实 客户 端 之 前 ， 我 首先 介绍 了 这 个 控制 台 ， 因 为 
它 可 以 为 你 提供 一 个 非常 友好 的 Cassandra 实例 配置 的 视图 。 
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你 可 以 从 http://github.com/suguru/cassandra-webconsole 下 载 控制 台 ， 作 为 一 个 
WAR 来 运行 。 如 果 你 希望 修改 源 代码 ， 可 以 使 用 Git 来 创建 一 个 分 支 仓 库 ， 或 是 直 
接 从 下 载 页 下 载 一 个 打包 文件 即 可 。 控 制 台 的 运行 需要 Java 6 和 Tomcat 6。 如 果 要 
编译 这 个 项 目 ， 还 需要 Maven 2。 


让 我 们 来 简单 看 看 它 支 持 的 特性 。 
。 keyspace 


控制 台 允 许 你 查看 keyspace 的 属性 ， 添 加 、 重 命名 和 删除 keyspace。 也 可 以 查 
看 每 个 keyspace 和 列 族 的 配置 信息 。 





。 列 族 
可 以 添加 或 删除 列 族 ， 查 看 它们 的 键 值 。 
。 环 


可 以 查看 系统 信息 ， 诸 如 运行 时 间 和 堆 内 存 占用 等 。 





如 果 你 在 同一 台 机 器 上 也 运行 了 Cassandra 实例 ， 则 需要 修改 Tomcat 的 端 
口 ， 因 为 Cassandra 把 8080 和 8084 端口 用 作 了 JMX。 























我 在 自己 的 机 器 上 局 动 了 一 个 控制 台 ， 位 于 http://localhost:9999/cassandra-webconsole。 
当 你 第 一 次 启动 控制 台 时 ， 会 看 到 一 个 界面 ， 让 你 输入 需要 连接 的 Cassandra 服务 
器 的 信息 。 





分 帧 传输 与 缓存 传输 


有 两 种 用 于 连接 Cassandra 的 传输 类 型 可 供 选 择 : 分 帧 传输 与 缓存 传输 。 分 帧 
传输 被 加 入 到 Thrift 当中 ， 用 于 支持 匿名 服务 器 。 两 种 传输 方式 上 没有 明显 的 
性 能 差异 ， 但 是 客户 端 语言 的 选择 可 能 会 让 你 只 能 使 用 某 一 种 。 比 如 Twisted 
Python 需要 使 用 分 帧 传输 ， 而 Haskell, Ocaml, Cocoa 和 Smalltalk (截止 到 本 
书写 作 时 ) 不 支持 分 帧 传输 。 


为 你 需要 在 Cassandra 服务 器 上 打开 这 一 支持 ， 控 制 台 会 请 你 指定 使 用 哪 种 
传输 方式 。 








一 旦 连接 到 一 个 Cassandra 服务 器 上 ，Web 控制 台 就 会 读 取 它 的 配置 信息 ， 并 带 你 
开始 与 Cassandra 的 交互 。 





图 8-1 显示 了 控制 台 自 己 的 配置 界面 。 图 8-2 展示 了 控制 台 显 示 的 keyspace 和 列 族 
配置 信息 界面 的 截屏 。 可 以 看 到 ， 这 里 有 四 个 keyspace。 选 择 Keyspacel 来 显示 其 
中 的 列 族 定义 ， 其 他 的 几 个 keyspace 是 system, Test 和 Twitter。 使 用 这 个 界面 ， 
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可 以 给 keyspace 加 入 列 族 、 重 命名 keyspace. $64 
keyspace。 





删除 keyspace， 或 是 创建 新 的 








Cassandra Web Console 


€ Q fi ix htip:/ocahost: 


癌 Customize Links Web Properties CJ NoSQL (Cjlocal [C Blogit WW Cassandra SVN Code 











Setup configuration 


Cassandra Host localhost 


Thrift Port 9160 


JMX Port 














Framed Transport 


» 


>D- d 


C3 other bookmarks 














& 8-1: Cassandra Web 控制 台 的 配置 界面 








e+ Cfg tocahost 


Cassandra Web Console 


Keyspaces 
Top > Keyspacet 


Column Families 


Keyspace1 


| Stondard2 

[clockType — | Tmestamp 

CompareWith |org apache cassandra db marshal UTFSType 
[Type [standard 


org apache cassandra db marshal UTFOTypeQ 1444356 


| Superi n , 
CompareSubcolumnsWith org apache cassandra db marshal Bytes Type 


CompareWith org apache cassandra db marshai Bytes Type 
Type Super 
ClockType Timestamp 


Desc 


| Standardi 

[CleckType — | Timestamp 

| Comparewith Org apache cassandra db marshal BytesType 
| Standard 


org apache cassandra db marshal Bytes Typeqa !beg301 


[er um 
CompareSubcolumnsWith | org apache cassandra db marshal UTFSType 
CompareWith orq apache cassandra db marshai Bytes Type 





) Outoa rks C] web Popetet (CJ eS. C e O eg N Cmts SYN Code -> Rely- Sala books. Q) Problems wth Cassan, 


Keyspace! Standard? Column Famey Type: Standard Column F amity Clock Type Timestamp Columns Sorted By 


Keyspace! Super! Column Fami Type: Super Column Family Clock Type: Timestamp Columns Sorted By 
Org apache cassandra db marshal BytesType@1bed3d1 


Keyspace! Standard! Column Famity Type: Standard Column Family Clock Type Timestamp Columns Sorted By 











8-2: Web 控制 台 的 keyspace 和 列 族 信息 界面 
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如 图 8-3 所 示 ， 添 加 一 个 列 族 或 超级 列 族 非 常 简 单 。 不 过 ，Web 控制 台 还 不 能 像 你 
所 希望 的 那样 ， 允 许 你 向 列 族 中 加 入 数据 ，。 








Add Column Family 





Column Family Name NewColumF amily 
Comment Top Secret Stuff 
Column Type Super [v] 
Comparator [urs [v] 
Sub Comparator UTF8 [v] 
Key Cache Size 200000 

Row Cache Size 0 

Preload Row Cache 回 














图 8-3: 通过 Web 控制 台 添 加 一 个 超级 列 族 


如 图 8-4 所 示 ， 你 还 可 以 在 Ring 界面 看 到 服务 器 运行 多 长 时 间 了 、 消 耗 了 多 少 内 
存 ， 以 及 负载 情况 如 何 。 











[d Cassandra web Console. * 

€ C fi f FepWiocahost59 à 

) Custome Lrs (Cj WebPropertes CI msa Clica [) Bogt \ Casssndra Si Code -> ORely- Safari Books.. 
Cassandra Web Console 


Keyspaces 





Address Token | Mode Status Load Heap Uptime | 
127 0.0.1 [66651752731360281885101219759536436731 | Normal| UP |50.87 KB|89 91 MB / 1023.94 MB | Od 20h 15m 27s | 








Cassandra WebConsole 0 7-SNAPSHOT 














图 8-4; Ring 界面 展示 了 系统 的 使 用 情 
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总 之 ，Web 控制 台 提 供 了 一 个 直观 而 有 吸引 力 的 界面 ， 让 Cassandra 的 基本 管理 任 
务 变 得 更 加 简单 了 。 





8.7 Hector (Java) 


Hector 是 一 个 用 Java 语言 编写 的 ， 在 MIT 许可 证 下 发 布 的 开源 项 目 。Hector 由 
Outbrain 的 Ran Tavory (前 Google 雇员 ) 创立 ， 托管 在 GitHub。 这 是 Cassandra 
最 早 的 客户 端 之 一 ， 并 使 用 在 Outbrain 的 产品 之 中 。 它 包装 了 Thrift， 并 提供 了 
JMX、 连 接 池 和 故障 恢复 。 


Ñ a 











e: 在 希腊 神话 中 ，Hector 是 特洛伊 城 的 建造 者 ， 也 是 一 位 出 色 的 武士 。 他 是 


«uw 4. — Cassandra 的 兄弟 。 
Toa! 





因为 Hector 是 Cassandra 的 第 一 个 客户 端 项 目 ， 也 因为 它 被 开发 者 们 非常 广泛 地 使 
用 ， 其 至 有 其 他 客户 端 基 于 它 开发 (参考 8.8 市 )， 我 会 给 出 一 个 简单 而 完整 的 使 用 
Hector 的 例子 。 








要 获取 Hector， 可 以 从 它 的 GitHub 站 点 http://github.com/rantav/hector 克隆 它 。 如 
果 你 希望 获取 源 代 码 ， 使 用 git 命令 即 可 。 如 果 只 需要 二 进 制 包 ， 可 以 直接 从 
Download 标签 下 载 。 





8.7.1 特性 
Hector 是 一 个 很 受 支 持 的 、 全 功能 的 Cassandra 客户 端 ， 有 很 多 用 户 和 活跃 的 社区 。 
它 提 供 了 如 下 功能 。 


。 面向 对 象 的 高 级 API 
Java 开发 者 可 以 使 用 Hector 提供 的 Keyspace, Column 等 接口 ， 非 常 符 合 Java 
开发 者 的 使 用 习惯 。 


。 故障 恢复 支持 
Thrift 不 支持 失败 的 客户 端 ， 因 为 Cassandra 倾向 于 用 在 一 个 高 度 分 布 化 的 模式 
下 ， 支 持 数 据 库 环 中 有 市 点 发 生 故 障 。 但 要 是 客户 端 连 接 到 的 布点 刚好 宕 机 了 ， 
如 果 客 户 端 能 支持 故障 恢复 自动 寻找 其 他 节点 来 完成 你 的 请 求 ， 应 该 是 件 很 
不 错 的 事 。 幸 运 的 是 ，Hector 就 提供 了 这 个 功能 。 


。 连接 池 
Cassandra 特别 为 高 可 扩展 性 而 设计 ， 相 应 地 ， 这 也 要 求 客户 端 应 该 支持 
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8. 


连接 地， 以 便 应 用 不 会 成 为 影响 Cassandra lE RE BJ Jl, Si, 与 JDBC 一 样 ， 
Cassandra 打开 与 关闭 连接 的 代价 也 很 高 。Hector 的 连接 池 使 用 了 Apache 的 


GenericObjectPool. 
JMX 支持 


Cassandra 大 量 使 用 了 JMX， 这 对 于 监控 来 说 非常 方便 。Hector 直接 通过 暴露 规 
格 ， 比 如 坏 连 接 、 可 用 连接 、 空 闲 连接 等 ， 来 支持 JMX。 





7.2 Hector API 


下 面 是 Ran Tavory 的 博客 上 (http://prettyprint.me) 的 用 于 演示 Hector 如 何 简化 
Cassandra 使 用 的 例子 : 


8. 


// 创建 一 个 cluster 

Cluster c = HFactory.getOrCreateCluster("MyCluster", "cassandral:9160"); 
// 选择 一 个 keyspace 

KeyspaceOperator ko = HFactory.createKeyspaceOperator("Keyspacel", c); 

// 选择 一 个 字符 串 提 取 器 

StringExtractor se = StringExtractor.get(); 

// 插入 值 

Mutator m = HFactory.createMutator (keyspaceOperator); 

m.insert("keyl", "ColumnFamilyl", createColumn("column1", "valuel", se, se)); 


// 现在 ， 读 一 个 值 
// 创建 一 个 查询 


ColumnQuery«String, String» q = HFactory.createColumnQuery (keyspace- 





Operator, se, se); 


// 设置 键 值 、 列 名 、 列 族 名 ， 然 后 执行 


Result«HColumn«String, String»» r = q.setKey("keyl").setName("column1"). 
setColumnFamily ("ColumnFamily1").execute(); 

// 从 结果 中 读 取 值 

HColumn«eString, String» c = r.get(); 

String value = Jc.getValue(); 


System.out.println(value); 


8 HectorSharp(C#) 


HectorSharp 是 Ran Tavory 的 Java 客户 端 Hector 的 CH 语言 移植 版 本 (Tavory 也 是 
HectorSharp 项 目的 一 个 追随 者 )。 它 的 特性 非常 类 似 Hector: 


具有 直观 的 、 面 向 对 象 接口 的 高 级 客户 端 ; 
客户 端的 故障 恢复 ， 

连接 池 ， 

负载 均衡 。 





我 们 来 看 看 如 何 使 用 HectorSharp 作为 Cassandra 接口 ， 如 何 创建 一 个 应 用 。 这 大 要 
是 用 来 了 解 如 何 把 它 加 入 到 项 目的 最 好 方法 。 我 们 将 创建 一 个 简单 的 C# 控制 台 应 
用 项 目 ， 从 Cassandra 读 写 一 些 数 据 ， 这 样 你 就 可 以 看 到 如 何 使 用 HectorSharp T o 
S 在 本 书写 作 时 ，HectorSharp 是 对 应 于 Cassandra 0.6 而 非 0.7 的 ' , 
A 
| 


NI 
Sou a: 
*d 


HectorSharp 的 代码 可 以 使 用 Git 从 http://github.com/mattvv/hectorsharp 获得 。 记 
住 ， 要 想 方 便 地 通过 Git 获取 源 代码 ， 打 开 终 端 并 进入 所 希望 项 目 目 录 的 父 目 录 ， 
使 用 git clone 命令 打开 带 有 .git 后 级 的 URL， 如 下 : 











>git clone http://github.com/mattvv/hectorsharp.git 


获取 代码 之 后 ， 需 要 确认 安装 了 .NET Framework 3.5 或 更 新 的 版 本 ， 可 以 从 微软 的 
官方 网 站 免费 下 载 它 。 你 还 可 以 免费 使 用 带 有 .NET Framework 4.0 的 Visual Studio 
.NET 2010 Express， 这 个 集成 开发 环境 是 免费 的 ， 而 且 很 容易 用 于 C# 的 项 目 。 可 
以 从 http://www.microsoft.com/express/Downloads 下 载 Visual Studio C# Express, 
软件 的 安装 可 能 会 需要 一 点 时 间 ， 并 需要 重启 计算 机 。 


装 好 Visual Studio 之 后 ， 打 开 HectorSharp 项 目 ， 就 可 以 看 到 项 目的 源 代码 ， 并 把 
它 加 为 我 们 自己 项 目的 引用 项 目 。 要 打开 这 个 项 目 ， 选 择 File > Open Project... 然后 
选择 HectorSharp.sln 文件 。Express 版 本 的 Visual Studio 可 能 会 声明 自己 不 做 文件 
解析 ， 不 过 不 用 为 此 担心 。 


在 项 目 浏 览 器 窗口 ， 右 键 单 击 HectorSharp， 从 源码 编译 HectorSharp。 你 可 以 在 左 
下 角 看 到 “Build Succeeded” 的 提示 。 这 样 就 生成 了 HectorSharp.dll 文件 ， 于 是 我 
们 就 可 以 在 自己 的 应 用 中 使 用 它 了 。 








要 创建 一 个 使 用 HectorSharp 的 应 用 ,选择 File>New Project...>Console Application, 
我 们 起 名 叫 ExecuteHector， 你 将 会 建立 一 个 名 为 Program.cs 带 有 main 方法 的 shell 
类 。 


现在 ， 我 们 要 引用 HectorSharp.dll， 这 样 才 能 用 这 个 类 。 要 做 到 这 点 ， 可 以 选择 
Project > Add Reference。 当 对 话 框 出 现时 ， 进 入 Browse 标签 页 ， 定 位 到 我 们 存放 
HectorSharp 的 位 置 ， 进 入 bin\Release 目录 ， 选 择 HectorSharp.dll。 你 应 该 可 以 在 
项 目 浏 览 器 中 看 到 HectorSharp 已 经 添加 为 引用 库 了 。 














译注 1: 这 个 项 目 似乎 从 2010 年 5 月 至 今 都 没有 更 新 过 了 。 
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我 把 应 用 的 名 称 修改 为 CassandraProgram.es 了 。 如 果 你 也 要 这 么 做 ， 应 该 
通过 选择 Project > ExecuteHector Properties， 在 项 目 中 修改 可 执行 文件 名 。 
选择 应 用 标签 ， 之 后 在 Startup Object 域 输入 你 的 程序 名 字 。 











让 我 们 来 简单 地 看 一 下 HectorSharp 提供 的 一 些 高 级 结构 。 


ICassandraClient 
这 个 接口 由 HectorSharp 客户 端 对 象 使 用 ， 实 现 类 型 一 般 为 KeyedCassandra- 
ClientFactory. 


Pool 

HectorSharp pool 是 它 到 Cassandra 的 连接 ， 可 以 使 用 一 个 工厂 方法 创建 pool， 
类 似 这 样 : Pool = new CassandraClientPoolFactory().Create();. 然后 
使 用 pool， 可 以 创建 Client。 


Client 
通过 连接 地 ， 你 可 以 获取 用 于 连接 到 Cassandra 的 客户 端 。 用 法 非常 简洁 : 
Client = new KeyedCassandraClientFactory( 

Pool, 


new KeyedCassandraClientFactory.Config { Timeout = 10 }) 
.Make( new Endpoint("localhost", 9160) ); 


首先 把 pool fA FI client 的 工厂 方法 ， 然 后 指定 附加 的 配置 细节 (比如 超时 的 秒 
数 )， 最 终 使 用 你 希望 连接 的 主机 和 端口 得 到 一 个 端点 。 在 上 面 的 例子 中 ， 我 们 
将 指定 timeout 为 10 秒 (默认 为 20 $5), 

Keyspace 

从 client 对象 获得 的 Cassandra 的 keyspace。 它 允许 你 指定 要 连接 的 keyspace 
的 名 字 和 期 望 使 用 的 一 致 性 级 别 : 





Keyspace = Client.GetKeyspace( 
"Keyspacel'", 
ConsistencyLevel.ONE, 
new FailoverPolicy(0) ( Strategy = FailoverStrategy.FAIL FAST ]); 





FailoverPolicy 类 允许 你 指定 如 果 HectorSharp 遇 到 通信 错误 (而 非 应 用 错 
误 ) 时 应 该 如 何 处 理 ， 也 就 是 说 ， 它 是 否 应 该 认为 正 试图 连接 的 节点 已 经 宕 机 
了 。 你 可 以 重 试 、 增 量 重 试 ， 或 是 决定 退出 ， 正 如 我 在 这 里 的 选择 。 





ColumnPath 
ColumnPath 是 一 个 简单 地 包装 ， 人 允许 你 更 容易 地 引用 整个 列 族 、 特 定 列 族 中 的 超 
级 列 ， 或 是 列 族 中 的 一 个 普通 列 。 它 只 包含 这 三 个 东西 的 C# 属性 ， 以 及 构造 器 。 
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HectorSharp 使 用 了 “四 人 帮 ” 的 Command 模式 ， 用 于 数据 访问 对 象 (DAO)， 
为 这 也 是 Hector 的 做 法 。 可 以 通过 gec 方法 创建 DAO: 





/** 
* 取 一 个 字符 串 值 . 
* Greturn 字符 串 值 ， 如 果 给 定 键 的 值 不 存在 则 返回 null. 
*r 
public String get(String key) { 
return execute (new Command«String»()[( 
public String execute(Keyspace ks) { 
try { 
return string (ks.getColumn(key, createColumnPath (COLUMN NAME)).getValue()); 
) catch (NotFoundException e) { 
return null; 





























p»: 
} 


protected static <T> T execute(Command<T> command) { 
return command.execute (CASSANDRA HOST, CASSANDRA PORT, CASSANDRA KEYSPACE); 


) 


get 命令 使 用 了 参数 化 的 execute 方法 ， 其 他 类 似 命令 还 可 以 用 于 插入 和 删除 
子 中 没有 给 出 )。 对 于 我 们 的 应 用 来 说 ， 我 们 会 尽量 保持 简单 ， 但 对 于 这 种 用 例 ， 
是 一 个 合理 的 设计 模式 。 


最 终 ， 我 们 已 经 准备 就 绪 ， 可 以 开始 写 代 码 了 。 你 的 应 用 应 该 类 似 例 8-1 中 的 代码 。 


例 8-1: CassandraProgram.cs 





using System; 

using HectorSharp; 

using HectorSharp.Utils; 

using HectorSharp.Utils.ObjectPool; 


/** 
* 一 些 c# 应 用 将 会 采用 Hectorsharp 作为 高 级 Cassandra 客户 端 。 
*/ 


namespace ExecuteHector 


( 


class CassandraProgram 


internal ICassandraClient Client; 
internal IKeyspace Keyspace; 
internal IKeyedObjectPool«Endpoint, ICassandraClient» Pool; 


static void Main(string[] args) 
{ 


CassandraProgram app = new CassandraProgram(); 


Console.WriteLine("Starting HectorSharp..."); 





app.Pool - new CassandraClientPoolFactory().Create(); 
Console.WriteLine("Set up Pool."); 
app.Client - new KeyedCassandraClientFactory (app.Pool, 
new KeyedCassandraClientFactory.Config { Timeout = 10 }) 
.Make(new Endpoint("localhost", 9160)); 
Console.WriteLine("Created client."); 


app.Keyspace = app.Client.GetKeyspace( 
"Keyspacel", 
ConsistencyLevel.ONE, 
new FailoverPolicy(0) ( Strategy = FailoverStrategy. 
FAIL FAST }); 
Console.WriteLine("Found keyspace " + app.Keyspace.Name); 





// 设置 要 使 用 的 列 路 径 


var cp = new ColumnPath("Standardl", null, "MyColumn"); 


// 写 值 
Console.WriteLine ("\nPerforming write using " + 
cp.ToString()); 
for (int i = 0; i < 5; i++) 
{ 
String keyname = "key" + i; 
String value = "value" + i; 
app.Keyspace.Insert(keyname, cp, value); 
Console.WriteLine("wrote to key: " + keyname + 
" with value: " + value); 
) 
// 读 值 
Console.WriteLine("MnPerforming read."); 
for (int i = 0; i < 5; i++) 
{ 
String keyname = "key" + i; 
var column = app.Keyspace.GetColumn(keyname, cp); 
Console.WriteLine("got value for " + keyname + " = " + 
column.Value); 


Console.WriteLine("All done."); 


通过 选择 Debug > Build Solution 来 编译 这 段 代 码 ， 成 为 一 个 控制 台 应 用 。 


现在 我 们 可 以 测试 一 下 程序 了 。 打 开 一 个 终端 ， 向 往常 一 样 启动 Cassandra: »binN 
cassandra -f。 现 在 ， 再 打开 一 个 终端 ， 进 入 ExecuteHector 项 目的 目录 ， 然 后 进 
入 bin\Release 目录 。 我 们 的 可 执行 文件 在 这 个 目录 里 ， 要 运行 程序 ， 只 要 在 命令 行 
输入 ExecuteHector.exe 即 可 。 你 将 会 看 到 类 似 下 面 的 输出 : 








C:NgitVMExecuteHectorMbinNRelease»ExecuteHector.exe 
Starting HectorSharp... 

Set up Pool. 

Created client. 

Found keyspace Keyspacel 


Performing write using ColumnPath (family: 'Standard1l', super: '', column: 
'MyColumn' 

wrote to key: key0 with value: Value0 

wrote to key: keyl with value: valuel 

wrote to key: key2 with value: value2 

wrote to key: key3 with value: value3 

wrote to key: key4 with value: value4 


Performing read. 


got value for key0 = Value0 
got value for keyl - valuel 
got value for key2 - value2 
got value for key3 = Value3 
got value for key4 = Value4 


All done. 





C:\git\ExecuteHector\bin\Release> 


可 以 看 到 ， 如 果 要 创建 一 个 C# 应 用 ， 并 希望 使 用 Cassandra 作为 后 端 数 据 库 ， 从 
HectorSharp 开始 会 非常 容易 ， 而 且 他 的 对 象 模型 非常 高 级 、 直 观 、 易 于 使 用 。 不 
过 ， 需 要 当心 的 是 ， 在 本 书写 作 时 ，HectorSharp 还 非常 不 成 就， 所以， 投入 大 把 精 
力 之 前 应 该 先 确定 需求 是 否 可 以 满足 。 


你 可 以 在 http://hectorsharp.com 更 多 地 了 解 HectorSharp 项 目 。 











8.9 Chirper 


如 果 你 是 一 个 .NET 开发 者 ， 可 能 会 对 Chirper 感 兴趣 。Chirper 是 Twissandra 的 一 
个 .NET 平台 移植 的 版 本 ， 由 Chaker Nakhli 写成 。 这 个 项 目 在 Apache 2.0 许可 证 下 
发 布 ， 源 代码 位 于 GitHub: http://github.com/nakhli/Chirper。 你 可 以 在 http://www. 
javageneration.com/?p=318 读 到 一 篇 介绍 Chirper 的 博客 。 





8.10 Chiton (Python) 


Chiton 是 Brandon Williams 用 Python GTK 框架 写 的 一 个 Cassandra 浏览 器 。 你 可 
以 从 http://github.com/driftx/chiton 下 载 这 个 项 目 。 它 有 一 些 依赖 环境 ， 所 以 需要 一 
些 配 置 才能 使 用 。 要 使 用 Chiton， 系 统 需要 有 如 下 软件 : 

e Python 2.5 或 更 新 的 版 本 ; 


e Twisted Python (一 个 事件 驱动 的 Python 网 络 接口 )， 可 以 在 http://twistedmatrix. 
com/trac 找到 ; 
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。 Thrift (0.2); 

* PyGTK 2.14 或 更 新 的 版 本 (一 个 Python 图 形 界面 库 ) 可 以 在 http://www.pygtk.org 
获得 。 它 还 依赖 于 GTK+， 如 果 你 使 用 Linux， 应 该 已 经 安装 了 GTK+ 了 ， 而 如 果 
你 使 用 Windows， 也 可 以 下 载 二 进 制 版 本 的 。 只 要 将 它 下 载 到 一 个 目录 ， 并 手工 
将 其 中 的 bin 子 目录 加 入 系统 路 径 环境 变量 即 可 。 





8.11 Pelops (Java) 


Pelops 是 由 Dominic Williams 开发 的 一 个 免费 、 开 源 的 Java 客户 端 。 它 类 似 于 
Hector， 也 是 用 Java 开发 的 ， 但 是 这 个 项 目 更 新 一 些 。Pelops 已 经 成 为 一 个 很 流行 
的 客户 端 ， 它 的 目标 包括 : 


。 创建 一 个 简单 、 易 于 使 用 的 客户 端 ; 
。 ud ciu UE 层 元 素 分 离开 ， 
。 更 紧密 地 跟 上 Cassandra 的 开发 ， 保 持 最 新 。 


Pelops 的 API 比 使 用 Thrift 或 Avro 暴露 出 来 的 底层 API 要 简单 得 多 。 要 写 入 数据 ， 
只 需要 一 个 Mutator 类 ; 要 读数 据 ， 只 需要 使 用 selector。 下 面 是 Williams 的 
网 站 上 的 一 个 简单 例子 ， 创 建 一 个 连接 到 一 组 Cassandra 服务 器 的 连接 池 ， 然 后 问 
一 个 超级 列 写 入 多 个 子 列 值 : 
Pelops.addPool( 
"Main", 
new String[] ( "Cassl.database.com", "cass2.database.com", "cass3.database.com"), 


9160, 
new Policy()); 


Mutator mutator - Pelops.createMutator("Main", "SupportTickets"); 





UuidHelper.newTimeUuidBytes () // 使 用 一 个 时 间 排 序 的 vurn fi 

mutator.newColumnList( 
mutator.newColumn("category", "videoPhone"), 
mutator.newColumn("reportType", "POOR PICTURE"), 
mutator.newColumn("createdDate", NumberHelper.toBytes (System. 
currentTimeMillis())), 
mutator.newColumn("capture", jpegBytes), 
mutator.newColumn("comment") )); 


mutator.execute(ConsistencyLevel.ONE); 


这 可 比 直接 使 用 Cassandra API 的 用 法 简单 多 了 。 


你 可 以 从 http://code.google.com/p/pelops 获得 项 目的 源 代 码 ， 还 可 以 在 Dominic 
Williams 的 网 站 http://ria101.wordpress.com 看 到 很 多 关于 如 何 使 用 Pelops 的 示例 和 
解释 。 
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如 果 你 要 在 一 个 Java 应 用 中 使 用 Cassandra， 我 建议 尝试 一 下 Pelops。 


8.12 Kundera (Java ORM) 


Kundera 是 一 个 使 用 Java 注 记 (annotation). 写成 的 Cassandra 的 对 象 关 系 映 射 实 
现 。 项 目 位 于 http://kundera.googlecode.com， 以 Apache 2.0 许可 证 发 布 。 按 照 其 作 
者 Impetus Labs 的 介绍 ，Kundera 的 目标 是 : 





IE 让 使 用 Cassandra 变 得 极其 简单 和 有 趣 。Kundera 不 会 毫 无 意义 地 重 做 另 外 
一 个 客户 端 库 ， 而 是 衡量 已 有 的 库 并 在 它们 之 上 再 次 封装 API， 来 帮助 开发 者 避 
免 不 必 要 的 体力 劳动 ， 只 要 编写 简单 纯粹 的 代码 ， 减 少 代码 复杂 度 、 提 升 质量 。 
最 终 提高 生产 力 。 


Kundera 底层 使 用 Pelops。 一 个 简单 的 Java 实体 bean 会 类 似 这 样 : 
@Entity 
@ColumnFamily (keyspace = "Keyspacel", family = "Band") 


public class Band ( 
erd 
private String id; 
@Column (name = "name") 
private String name; 
@Column (name = "instrument") 
private String instrument; 


你 可 以 进行 一 个 这 样 的 JPA 查询 : 


Query query = entityManager.createQuery ("SELECT m from Band c where 
name-'george'"); 
List«SimpleComment» list - query.getResultList(); 


pM 这 个 库 还 相当 新 ， 看 不 出 来 是 一 切 就 绪 可 以 使 用 了 。 不 过 
是 很 被 看 好 ， 正 适合 一 | 速 增长 的 兴 





8.13 Fauna (Ruby) 


Twitter 的 Ryan King 以 及 Evan Weaver 创建 了 一 个 Cassandra 数据 库 的 Ruby 客户 
端 ， 称 为 Fauna。 如 果 你 从 Ruby 程序 中 访问 Cassandra， 这 个 可 能 正 是 你 的 选择 。 
要 了 解 更 多 Fauna 的 情况 ， 可 以 查看 http://github.com/fauna/cassandra/blob/master/ 
README.rdoc, 
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8.14 小结 


现在 ， 你 已 经 了 解 了 各 种 Cassandra 的 客户 端 接 口 ， 以 及 如 何 安装 使 用 这 些 客户 端 。 
有 很 多 种 Cassandra 客户 端 ， 各 有 优势 和 局 限 ， 使 用 不 同 的 语言 ， 有 不 同 的 成 熟 度 。 
这 里 不 太 可 能 探讨 每 种 客户 端 ， 所 以 ， 我 只 选择 了 集中 不 同 语言 平台 下 的 儿 个 有 代 
表 性 的 客户 端 进行 了 介绍 。 要 查看 更 多 的 可 选 客 户 端 ， 可 以 访问 Cassandra 项 目的 
wiki 页 面 “ 客 户 端 选择 ”， 页 面 位 于 http://wiki.apache.org/cassandra/ClientOptions。 
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本 章 讨论 使 用 各 种 不 同 的 工具 对 Cassandra 进行 监控 ， 并 了 解 Cassandra 集群 生命 周 
期 中 的 重要 事件 。 我 们 将 了 解 一 些 简单 的 查看 运行 信息 的 方法 ， 比 如 修改 日 志 级 别 、 
理解 输出 等 。 


此 外 ，Cassandra 还 提供 了 内 建 的 Java 管 理 扩 展 (JMX) 的 支持 ， 这 让 你 对 
Cassandra 节点 及 其 底层 的 Java 环境 可 以 有 更 丰富 的 监控 手段 。 再 进行 一 点 集成 工 
作 ， 我 们 就 可 以 看 到 数据 库 的 状态 信息 以 及 正在 发 生 的 事件 ， 甚 至 是 远程 调节 一 
些 参数 值 。JMX 是 Cassandra 的 一 个 重要 部 分 ， 我 们 会 用 一 些 篇 幅 来 确保 我 们 了 解 
JMX 如 何 工 作 以 及 利用 它 怎样 实现 一 些 监 控 和 管理 的 功能 ， 甚 至 还 将 介绍 如 何 写 自 
己 的 MBean 来 发 现 新 的 Cassandra 特性 。 让 我 们 开始 吧 ! 


9.1 日 志 


最 简单 的 了 解 当 前 数据 库 运 行 状况 的 方式 就 是 修改 日 志 级 别 ， 来 输出 更 详细 的 日 志 
信息 。 这 对 于 开发 和 学 习 Cassandra 如 何 运行 非常 有 益 。 








Cassandra 使 用 Log4J 来 输出 日 志 。 上 默认 情况 下 ，Cassandra 服务 器 的 日 志 级 别 是 
INFO， 这 无 法 给 你 太 多 Cassandra 正在 做 什么 的 运行 细节 。 它 只 输出 基本 的 状态 更 
新 ， 如 下 : 


INFO 08:49:17,614 Saved Token found: 94408749511599155261361719888434486550 
INFO 08:49:17,614 Saved ClusterName found: Test Cluster 

INFO 08:49:17,620 Starting up server gossip 

INFO 08:49:17,655 Binding thrift service to morpheus/192.168.1.5:9160 
INFO 08:49:17,659 Cassandra starting up... 
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HERH 





物理 文件 


通过 把 日 志 
状态 的 更 


到 这 样 一 





m EJA Cassandra E 可 以 使 用 程序 的 -E 参数 (保持 输出 在 终端 窗口 
前 台 可 见 ) 让 志 输 出 到 这 个 终端 窗口 中 来 。 不 过 ，Cassandra 同时 也 会 把 日 志 写 到 


"m, 


志 级 


这 样 你 可 以 事后 Pi 
级 别 改 为 DEBUG， 我 们 可 以 看 到 非常 多 的 服务 器 工作 的 情况 ， 而 不 只 是 


新 。 


要 修改 日 志 级 别 ， 打 开 <cassandra-home>/conf/log4j-server.properties， 并 在 其 中 找 


TT: 





log4j.rootLogger-INFO,stdout,R 


改 成 这 个 样子 : 


log4j.rootLogger-DEBUG,stdout,R 














当然 ， 在 生产 环境 中 ， 你 可 能 会 将 日 志 级 别 调 到 WARN 或 是 ERROR, [479 
过 繁琐 的 输出 可 能 会 让 服务 器 变 慢 很 多 。 








现在 我 们 可 以 看 到 Cassandra 运行 的 很 多 细节 了 : 


INFO 09:41:54,936 Completed flushing /var/lib/cassandra/data/system/ 
LocationInfo-8-Data.db 
DEBUG 09:41:54,942 Checking to see if compaction of LocationInfo would be 
useful 


DEBUG 09:41:54,942 discard completed log segments for CommitLogContext 
(file2'/var/lib/cassandra/commitlog/CommitLog-1277397714697.10g' 
INFO 09:41:54,943 Compacting [org.apache.cassandra. 
io.SSTableReader (path-'/var/lib/cassandra 


DEBUG 09:41:54,943 Marking replay position 121 on commit log CommitLogSegment 
(/var/lib/cassandra/commitlog/CommitLog-1277397714697.109g)... 
DEBUG 09:41:54,943 index size for bloom filter calc for file 





/var/lib/cassandra/data/system/LocationInfo-5-Data.db : 256 
DEBUG 09:41:54,944 index size for bloom filter calc for file 
/var/lib/cassandra/data/system/LocationInfo-6-Data.db : 512 
DEBUG 09:41:54,944 index size for bloom filter calc for file 
/var/lib/cassandra/data/system/LocationInfo-7-Data.db : 768 
INFO 09:41:54,985 Log replay complete 
INFO 09:41:55,009 Saved Token found: 94408749511599155261361719888434486550 
INFO 09:41:55,010 Saved ClusterName found: Test Cluster 
INFO 09:41:55,016 Starting up server gossip 
INFO 09:41:55,048 Binding thrift service to morpheus/192.168.1.5:9160 
INFO 09:41:55,051 Cassandra starting up... 


DEBUG 09:41:55,112 Marking /var/lib/cassandra/data/system/LocationInfo-5-Data.db 
compacted 


LE ys 


DEBUG 09:41:55,117 Estimating compactions for Superl 
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DEBUG 09:41:55,117 Estimating compactions for Standard2 

DEBUG 09:41:55,117 Estimating compactions for Super2 

DEBUG 09:41:55,118 Estimating compactions for Standardı 

DEBUG 09:41:55,118 Estimating compactions for StandardByUUID1l 

DEBUG 09:41:55,118 Estimating compactions for LocationInfo 

DEBUG 09:41:55,118 Estimating compactions for HintsColumnFamily 

DEBUG 09:41:55,118 Checking to see if compaction of Superl would be useful 

DEBUG 09:41:55,119 Checking to see if compaction of Standard2 would be useful 

DEBUG 09:41:55,119 Checking to see if compaction of Super2 would be useful 

A akk 

DEBUG 09:41:56,023 GC for ParNew: 1 ms, 14643776 reclaimed leaving 
80756296 used; 

max is 1177812992 

DEBUG 09:41:56,035 attempting to connect to lucky/192.168.1.2 

DEBUG 09:41:57,025 Disseminating load info ... 














你 可 以 精确 观察 到 Cassandra 在 什么 时 间 正 在 做 什么 ， 这 对 于 发 现 问题 非常 有 帮助 。 
而 且 ， 对 于 理解 Cassandra 如 何 自 我 维护 也 很 有 好 处 。 


如 果 你 希望 改变 日 志 的 位 置 ， 也 可 以 在 log4j.properties 文件 里 找到 这 行 ， 并 修改 一 
个 文件 名 : 
log4j.appender.R.File-/var/log/cassandra/system.log 


对 于 Windows 来 说 ， 这 个 条 目 是 一 样 的 。 在 Windows 里 ， 这 个 文件 将 自动 解析 成 


C:\\var\log\ cassandra\system.log。 











a 


如 果 在 这 个 路 径 找 不 到 日 志文 件 ， baee ea 个 目录 的 属 主 ， 至 少 拥有 
读 写 权限 。 如 果 Cassandra 无 法 写 日 志 ， 它 不 会 告诉 你 的 ， 只 是 不 写 而 已 。 
对 于 数据 文件 也 是 如 此 。 














注意 ， 这 个 位 置 是 用 于 记录 数据 库 的 行为 的 ， 而 非 记 录 Cassandra 的 内 部 数据 文件 
的 。 数 据 文件 存放 在 /var/lib/cassandra。 





9.1.1 跟踪 查看 

要 看 到 滚动 输出 的 日 志文 件 ， 不 必 使 用 前 台 开 关 来 启动 Cassandra。 你 还 可 以 不 用 
- £ 选项 简单 地 启动 Cassandra 之 后 ， 使 用 tail 来 看 日 志 。tail 不 是 Cassandra 专 
有 的 ， 在 所 有 Linux 发 布 版 中 都 有 这 个 实用 工具 ， 可 以 提供 这 种 功能 ， 可 以 在 控制 
台 看 到 一 个 文件 末尾 新 追加 的 内 容 。 


要 跟踪 查看 日 志文 件 ， 直 接 这 样 启动 Cassardra: 





>bin/cassandra 
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然后 打开 第 二 个 控制 台 ， 输 入 tail 命令 ， 把 你 希望 查看 的 文件 的 路 径 当 做 参数 传 
进去 s， 就 像 这样 : 


»tail -f /var/log/cassandra/system.log 


-f 参数 的 意思 是 “跟踪 ”(follow)， 随 着 Cassandra 向 日 志文 件 输出 信息 ，tail 也 
会 将 新 的 输出 显示 到 屏幕 上 来 。 要 想 终止 追踪 显示 日 志 ， 只 要 按 下 Ctrl-C 就 行 了 。 


在 Windows FÑ or 但 是 Windows 本 身 并 不 提供 tail 命令 。 所 以 ， 
要 想 做 到 这 点 ， 需 要 下 载 安 装 Cygwin， 这 是 一 个 Bash Shell 模拟 器 。Cygwin 允许 
你 在 Windows 下 拥有 Linux 风格 的 界面 ， 使 用 各 种 Linux 工具 。 可 以 免费 从 http:// 
www.cygwin.com 获取 它 。 








接 下 来 就 可 以 正常 启动 Cassandra， 然 后 使 用 这 个 命令 跟踪 查看 日 志文 件 了 : 


eben@lucky~$ tail -f C:NNvarNMlogNNcassandraNNsystem.log 


这 样 ， 日 志 信 息 就 会 像 程序 在 前 台 一 样 ， 和 输出 到 控制 台 了 。 





9.1.2 通用 技巧 


1. 跟踪 
一 旦 你 运行 了 一 个 打开 Debug 模式 的 服务 器 ， 就 可 以 看 到 很 多 用 于 帮助 调试 的 详细 信 
息 。 比 如 ， 我 们 先 写 一 个 简单 的 值 到 数据 库 再 读 出 来 ， 可 以 看 到 日 志 输 出 是 这 样 的 : 


DEBUG 12:55:09,778 insert 

DEBUG 12:55:09,779 insert writing local key mycol 

DEBUG 12:55:36,387 get 

DEBUG 12:55:36,390 weakreadlocal reading SliceByNamesReadCommand( 
tables'Keyspacel!', keys'mycol!', 
columnParent-'QueryPath(columnFamilyName-'Standardl', 
superColumnName-'null', columnName-'null')', 
columns-[6b6579393939,]) 


这 是 在 命令 行 执行 的 命令 和 相应 的 服务 器 输出 : 


cassandra» set Keyspacel.Standardl['mycol']['key999']-'value999' 
Value inserted. 

cassandra» get Keyspacel.Standardl['mycol']['key999'] 

=> (columnz6b6579393939, value-value999, timestamp-1277409309778000 


注意 这 里 所 发 生 的 事情 。 我 们 在 名 为 Standarai 的 列 族 里 插入 了 一 个 值 。 当 发 出 
get 请 求 时 ， 列 键 值 key999 转化 成 了 6b6579393939， 因 为 standard1 列 族 的 
CompareWith 属性 为 BytesType. 


与 此 不 同 ， 如 果 使 用 standarg2 列 族 ， 我 们 将 看 到 日 志 中 的 列 名 就 是 所 输入 的 字 





14 | 第 9 章 


符 串 ， 因 为 这 个 列 族 的 Comparewith 属性 是 UTF-8。 这 次 我 们 写 入 并 取出 同样 的 
值 。 命 令 行 的 输入 如 下 所 示 : 


cassandra» set Keyspacel.Standard2['mycol'] ['key888']='value888' 

Value inserted. 

cassandra» get Keyspacel.Standard2['mycol'] ['key888'] 

=> (column=key888, value=value888, timestamp=1277409950795000) 
相应 的 服务 器 日 志 如 下 : 


DEBUG 13:06:03,291 get 

DEBUG 13:06:03,292 weakreadlocal reading SliceByNamesReadCommand|( 
table-'Keyspacel', key-'mycol', 
columnParent-'QueryPath(columnFamilyName-'Standard2', 
superColumnName-'null', columnName-'null')', 
columns- [key888,]1]) 


过 这 个 例子 ， 你 应 该 已 经 充分 了 解 了 如 何 用 日 志 跟 踪 你 的 动作 产生 的 影响 。 


2. 危险 信号 
运行 Cassandra 的 时 候 ， 有 些 事情 值得 留心 。 比 如 ， 如 果 你 在 日 志 里 看 到 下 面 这 句 
话 ， 却 没有 其 他 相关 信息 ， 环 上 的 节点 可 能 是 有 什么 地 方 出 错 了 : 


DEBUG 12:39:56,312 attempting to connect to mywinbox/192.168.1.3 


尝试 连接 本 身 没 什么 问题 ， 但 之 后 应 该 有 确认 连接 成 功 的 消息 。 这 样 的 消息 有 可 能 
是 因为 在 Cassandra WEEE A Linux 又 有 Windows 造成 的 ， 这 是 绝对 不 推荐 的 部 
署 方式 。 如 果 Linux 和 Windows 主机 互相 可 见 ， 并 可 以 共享 打印 机 等 资源 、 互 相 访 
问 文件 、 浏 览 对 方 提供 的 网 页 等 ， 你 可 能 会 觉得 两 者 共存 没什么 问题 。 但 是 ， 在 生 
产 环境 里 ， 不 要 试图 在 集群 中 混合 搭配 不 同 操作 系统 。 


9.2 JMX 与 MBean 概 述 


本 节 中 ， 我 们 探索 Cassandra 如 何 使 用 Java 管理 扩展 (JMX) 来 进行 远程 服务 器 管理 。 
JMX 由 Java 规范 请 求 (JSR) 160 定义 ， 并 从 Java 5.0 开始 成 为 Java 的 核心 部 分 。 


» a 

















你 可 以 通过 查阅 java.lang.management 包 来 了 解 更 多 关于 IMX 实现 的 
p^ 。 M. 
eus 
JMX 是 一 个 Java API， 它 通过 两 种 途径 提供 应 用 管理 功能 。 首 先 ，JMX 允许 你 了 解 
应 用 的 健康 状况 和 整体 运行 情况 ， 如 内 存 、 线 程 、CPU 利用 率 等 一 一 这 些 参数 对 于 
所 有 Java 应 用 都 是 适用 的 。 其 次 ，JMX 允许 你 对 应 用 的 特定 方面 进行 稽核 。 


稽核 (instrumentation) 是 指 在 应 用 代码 周围 进行 一 层 封 装 ， 让 应 用 代码 提供 一 些 钧 
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T (hook) 给 JVM， 从 而 允许 JVM 收集 部 分 数据 ， 这 样 外 部 工具 就 可 以 使 用 这 些 数 
据 了 。 这 些 工具 包括 监控 的 代理 程序 、 数 据 分 析 工 具 、 性 能 分 析 工 具 等 。JMX 不 仅 
允许 你 来 查看 这 些 数据 ， 如 有 果 应 用 允许 ， 甚 至 可 以 通过 更 新 某 些 值 ， 来 在 运行 期 间 管 
理应 用 。 


JMX 广泛 应 用 于 各 种 应 用 的 监控 操作 ， 包 括 : 


。 检测 内 存 不 足 ， 包 括 堆 里 的 各 个 分 度 空间 尺寸 ; 

。 线程 信息 ， 诸 如 死 锁 检测 、 峰 值 线程 数 、 当 前 线程 数 等 ， 
。 详细 的 类 装载 信息 跟踪 ， 

。 日 志 级 别 控制 ， 

。 通用 信息 ， 如 应 用 运行 时 间 、 当 前 的 classpath。 


很 多 流行 的 Java 应 用 都 使 用 JMX 进行 稽核 ， 包 括 JVM 本 身 、 惠 普 的 Open View, 
Oracle 的 WebLogic 服务 器 、Glassfish 应 用 服务 器 以 及 Cassandra。 在 这 些 应 用 里 ， 
JMX 是 一 种 简单 的 管理 容器 的 手段 ， 而 另 一 方面 ，JBoss 应 用 服务 器 使 用 JMX 作为 
与 容器 交互 的 主要 方法 。 


例如 ，WebLogic 服务 通过 JMX 提供 了 非常 广泛 的 行为 数据 。 比 如 ， 监 测 连接 池 里 
可 用 的 JDBC 连接 数 ， 或 是 查看 某 个 给 定 状 态 下 容器 中 加 载 的 无 状态 bean 的 个 数 。 
你 不 仅 可 以 监控 这 些 参数 ， 还 可 以 使 用 Sun 公司 (现在 是 Oracle f) JDK 提供 的 图 
形 化 控制 台 来 改变 它们 的 值 。 希 望 增加 消息 驱动 bean 池 的 尺寸 ? 一 个 支持 JMX 的 
容器 将 允许 你 这 样 进行 资源 管理 。 


图 9-1 中 提供 了 一 个 JMX 架构 的 图 示 。 





























JMX 管 
理应 用 














9-1; JMX 架构 


JMX 的 架构 非常 简单 。JMX 通过 底层 操作 系统 收集 信息 。JMX 本 身 是 被 稽核 的 ， 
所 以 ， 它 的 很 多 特性 都 像 前 面 描述 的 那样 暴露 出 来 ， 用 于 管理 了 。 一 个 被 稽核 的 
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Java 应 用 (比如 Cassandra) 运行 在 JVM 之 上 ， 也 将 一 些 特性 作为 可 管理 对 象 暴 露 
出 来 。JDK 包含 了 一 个 MBean 服务器， 允许 JMX 管理 应 用 通过 一 个 远程 访问 协议 
访问 应 用 的 被 稽核 的 特性 。JVM 还 提供 了 一 些 管理 能 力 ， 支 持 简 单 网 络 监测 协议 
(SNMP) 代理 使 用 类 似 方 式 工作 。 


不 过 ， 对 于 一 个 给 定 的 程序 ， 你 只 能 管理 应 用 开发 者 提供 的 可 管理 的 东西 。 幸 运 的 
Æ, Cassandra 的 开发 者 已 经 提供 了 对 数据 库 的 很 多 部 分 的 稽核 ， 可 以 非常 直接 地 通 
过 JMX 进行 管理 。 











Java 应 用 的 稽核 是 通过 对 使 用 可 管理 bean， 对 允许 JMX 加 钩子 的 应 用 代码 进行 包 
装 来 实现 的 。 


9.2.1 MBean 


可 管理 bean (managed bean)， 简 称 MBean, eR Java bean， 用 于 表示 JVM 
中 一 个 可 管理 的 资源 。MBean 与 MBean 服务 器 进行 交互 ， 从 而 支持 远程 管理 功能 。 


jconsole 工具 是 标准 JDK 的 自 带 工具 。 它 提供 了 一 个 访问 MBean 的 图 形 化 界面 ， 
并 可 以 支持 本 地 和 远程 的 管理 。JConsole 的 视图 如 图 9-2 所 示 。 
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9-2: JConsole 显示 Cassandra 守护 程序 的 峰值 线程 数 




















在 这 张 图 中 ， 可 以 看 到 JMX 提供 给 应 用 的 两 类 视图 : 每 个 程序 都 有 的 通用 的 线程 、 
内 存 以 及 CPU 信息 ， 一 个 提供 了 峰值 线程 数 的 更 细 市 的 视图 。 可 以 看 到 ， 应 用 的 很 
多 稽核 内 容 也 在 这 里 。 





^a 











JConsole 随 JDK 而 发 布 ， 且 易于 使 用 ， 所 以 非常 流行 。 不 过 这 并 不 是 唯一 
可 用 的 JMX 客户 端 。 比 如 ，JBoss 应 用 服务 器 的 Web 控制 台 本 身 就 是 一 个 
JBoss 服务 器 的 JMX 客户 端 。 




















应 用 程序 或 JVM 有 很 多 地 方 本 来 支持 稽核 ， 但 是 都 没有 打开 。 线 程 瓶颈 (Thread 
Contention) 就 是 一 个 在 JVM 中 被 默认 关闭 的 有 潜在 用 处 的 MBean。 这 个 属性 可 
能 对 于 调试 非常 有 用 ， 所 以 ， 如 果 你 看 到 某 个 MBean 可 能 会 对 找到 问题 很 有 用 ， 
可 以 打开 它 。 不 过 要 牢记 的 一 点 就 是 设 有 免费 的 午餐 ， 阅 读 你 要 打开 的 MBean 的 
JavaDoc 可 以 帮助 你 了 解法 在 的 性 能 影响 。ThreadcPUTime 是 另 一 个 有 用 而 昂贵 的 
MBean 的 例子 。 


应 用 中 一 些 简单 的 值 会 作为 属性 暴露 出 来 。 一 个 例子 是 Threading»PeakThread- 
count ， 这 个 属性 直接 报告 MBean 存储 的 应 用 的 峰值 时 刻 线 程 数 。 通 过 刷新 可 以 查 
看 最 新 的 值 ， 不 过 这 差不多 就 是 你 能 做 的 所 有 事情 了 。 因 为 这 个 值 是 JVM 内 部 维护 
的 值 ， 从 外 部 设置 它 没 有 什么 意义 (这 是 从 实际 情况 中 记录 下 来 的 ， 不 可 配置 )。 


但 是 有 的 MBean 是 可 以 配置 的 。 这 些 MBean 会 提供 一 些 可 用 的 操作 给 JMX 代理 ， 
这 样 就 可 以 获取 和 设置 值 了 。 可 以 通过 查找 writable， 来 检查 MBean 是 否 可 写 。 
如 果 是 false， 你 就 会 看 到 一 个 提示 ， 告 诉 你 这 个 值 是 只 读 的 ， 如 果 是 true， 你 就 
会 看 到 一 个 或 多 个 域 可 以 设置 新 值 ， 并 有 一 个 用 于 更 新 的 按钮 。 图 9-3 给 出 了 一 个 
java.util.logging.Logger bean 的 例子 。 








注意 ， 参 数 名 对 JMX 客户 端 是 不 可 见 的 ， 它 们 被 标记 为 bo、p1 之 类 的 名 字 。 这 是 
因为 Java 编译 器 在 编译 阶段 就 已 经 “忘记 ”参数 名 了 。 所 以 ， 要 了 解 需要 设置 哪些 
参数 ， 需 要 查看 相应 MBean 的 JavaDoc。 对 于 java.util.logging.Logger， 这 
个 类 实现 了 一 个 称 为 java.util.logging.LoggingMXBean 的 接口 ， 进 行 用 于 移 
核 的 包装 。 要 找 出 参数 的 对 应 关系 ， 我 们 查看 了 这 个 类 的 JavaDoc， 发 现 po 是 所 要 
修改 的 logger 的 名 字 ， 而 pl 是 希望 设置 为 的 日 志 级 别 。 


» a 








多 说 一 句 ， 如 果 应 用 没有 使 用 java.uitl.logging 进行 日 志 的 话 ， 设 置 
这 个 日 志 级 别 对 你 不 会 有 什么 帮助 。 这 里 只 是 把 它 当 做 一 个 例子 ， 因 为 它 
易于 理解 ， 所 以 就 作为 简单 的 介绍 了 。 但 是 ，Cassandra 没有 使 用 这 个 日 志 
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[E] Attributes 
LoggerNames 
|=| Operations 
getLoggerLevel 
getParentLoggerName 
setLoggerLevel 
出 | org.apache.cassandra.concurrent 
[+] org.apache.cassandra.db 
+| org.apache.cassandra.gms 
+] org.apache.cassandra.service 
+| system J 


























































































































9-3; java.util.logging.Logger MBean 允许 你 设置 日 志 级 别 


某 些 MBean 全 交加 = 个 javax.management.openmbean.CompositeDataSupport 
类 型 的 属性 。 这 意味 着 ， 这 些 不 是 LoadedClassCount 这 样 的 简单 地 可 以 在 一 个 
域 里 显示 的 值 ， 而 是 多 个 值 。 一 个 例子 是 Memory > HeapMemoryUsage， 它 提供 
了 很 多 数据 点 ， 因 此 有 自己 的 视图 。 


另 一 种 类 型 的 MBean 操作 不 是 简单 地 显示 一 个 值 或 允许 你 设置 一 个 值 ， 而 是 要 执行 
一 些 有 用 的 动作 。dumpAllThreads 和 resetPeakThreadCount 就 是 这 类 操作 的 
例子 。 


现在 ， 我 们 很 快 将 进入 针对 Cassandra 的 监控 和 管理 。 





9.2.2 集成 JMX 


让 Cassandra 使 用 JMX 非常 简单 ， 不 过 还 是 有 一 些 依赖 的 库 。 首 先 要 去 http://mx4j. 
sourceforge.net 下 载 MX4J JÆ 3.0.1。 你 没准 可 以 看 到 新 的 可 用 版 本 ， 不 过 3.0.1 是 
确实 可 用 的 。 











下 载 mx4j 库 之 后 ， 解 压 并 进入 lib 目录。 复制 其 中 的 两 个 JAR 包 : mx4j.jar 和 
mx4j-tools.jar, A 贴 到 «cassandra-home»/lib 目录 ， 然 后 重启 Cassandra。 现 在 ， 
其 他 节点 就 可 以 通过 JMX 连接 并 监控 它 的 健康 状态 了， 其 至 可 以 通过 它 设置 如 
MBean 形式 暴露 出 来 的 功能 。 




















如 果 你 下 载 了 Cassandra 的 源码 包 ， 只 需要 直接 把 这 两 个 JAR 包 放 入 lib 目录， 并 
重新 编译 源码 。 下 次 启动 Cassandra 的 时 候 ， 你 应 该 可 以 看 到 类 似 下 面 的 输出 : 
INFO 13:37:28,473 Cassandra starting up... 
DEBUG 13:37:28,474 Will try to load mx4j now, if it's in the classpath 


INFO 13:37:28,508 mx4j successfuly loaded 
HttpAdaptor version 3.0.2 started on port 8081 


这 里 ，MX4J 是 我 们 的 JMX 服务 器 代理 ， 现 在 一 切 已 经 就 绪 ， 来 享用 JMX 带 来 的 
好 处 吧 。 


9.3 通过 JMX 与 Cassandra 交 互 


现在 ，JMX 支持 已 经 打开 了 ， 我 们 连接 到 Cassandra 的 JMX 端口 上 。 只 需要 打开 一 
个 新 的 终端 ， 并 键入 如 下 命令 : 


>jconsole 


启动 了 jconsole 后 ,会 看 到 一 个 类 似 图 9-4 的 登录 界面 。 











HEB consoie-ievconn 


New Connection 














sun.tools.jconsole JConsole 
com.xmlmind.xmleditapp.start.Start 














org.apache.cassandra.thrift.CassandraDaemon 





O Remote Process: 








Usage: <hostname>:<port> OR service:jmx «protocol»: «sap 


Username: Password: 











9-4, jconsole 登录 界面 





在 这 里 ， 如 果 你 要 监控 的 就 是 本 机 ， 可 以 简单 双击 在 本 地 进程 部 分 中 的 org.apache. 
cassandra.thrift.CassandraDaemon。 如 果 你 在 监控 其 他 节点 上 的 Cassandra， 单 击 远 
程 进程 单 选 框 ， 之 后 输入 希望 连接 的 主机 和 端口 号 。Cassandra 的 JMX 默认 在 8080 
端口 进行 广播 ， 所 以 可 以 输入 类 似 这 样 的 内 容 ， 然 后 单 击 连 接 : 


>lucky:8080 


如 果 无 法 连接 ， 要 确认 一 下 你 是 否 有 其 他 进程 占用 了 8080 端口 ， 这 个 端口 


心 。 被 很 多 工具 使 用 ， 比 如 ApacheTomcat, 
TN 














一 旦 连接 到 服务 器 上 ， 上 默认 视图 包含 服务 器 状态 的 如 下 四 个 主要 类 别 ， 它 们 会 被 不 
断 更 新 。 


。 ENE 
会 显示 出 Cassandra 可 用 的 总 内 存 和 正在 被 使 用 的 内 存 。 


。 线程 
会 显示 出 Cassandra 正在 使 用 的 活 线程 数量 。 


。 类 
Cassandra 加 载 的 类 的 个 数 。 这 个 数值 对 于 一 个 如 此 强大 的 程序 来 说 ， 是 非常 少 
HJ, Cassandra 通常 需要 使 用 大 约 2300 个 类 。 可 以 和 Oracle WebLogic 对 比 一 
下 ， 后 者 通常 需要 加 载 24 000 个 类 。 


。 CPU 利用 率 
以 百分比 的 形式 显示 Cassandra 程序 当前 占用 处 理 器 的 情 ; 
你 可 以 在 图 表 中 调整 显示 的 时 间 范 围 。 


如 果 想 要 查看 Cassandra 使 用 Java 堆 和 其 他 内 存 的 细节 情况 ， 可 以 单 击 Memory E 
签 。 通 过 在 下 拉 列 表 中 选择 合适 的 显示 单位 ， 你 可 以 细致 地 查看 Cassandra 在 其 
度 的 内 存 占 用 情况 。 如 果 你 认为 必要 ， 还 可 以 (请 求 ) 强制 垃圾 回收 。 


可 以 同时 连接 到 多 个 JMX 代理 。 只 要 在 菜单 中 选择 File > New Connection... 并 重复 
前 面 的 步 又， 就 可 以 连接 到 下 一 个 Cassandra 节点 ， 同 时 查看 多 个 服务 器 。 




















9.4 Cassandra 的 MBean 


一 旦 你 用 JConsole 或 其 他 JMX 代理 连接 上 了 Cassandra， 就 可 以 用 它 暴 露出 来 的 
MBean 对 它 进 行 管理 了 。 要 做 到 这 点 ， 单 击 JConsole 的 MBeans 标签 。 除 了 标准 的 
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Java MBean， 还 有 很 多 Cassandra 包 也 包含 了 可 管理 bean， 按 照 包 名 排序 ， 这 些 包 
以 org.apache.cassandra 开头 。 我 们 不 会 在 这 里 进入 到 每 个 类 的 细节 ， 但 会 看 
其 中 一 些 我 们 感 兴趣 的 。 


Cassandra 中 的 许多 类 都 作为 MBean 暴露 出 来 ， 这 意味 着 它们 实现 了 一 个 定制 接口 ， 

个 接口 描述 了 需要 实现 且 JMX 代理 为 其 放置 钩子 的 操作 。 写 任何 MBean 的 基本 
ps 样 的 ， 我 会 用 一 个 简单 的 类 作为 例子 。 如 果 你 希望 让 还 不 支持 JMX 的 东 
西 支持 JMX， 按 照 这 个 通用 的 框架 进行 就 可 以 了 。 


对 于 这 个 例子 ， 我 们 来 看 看 Cassandra 的 scorageservice 是 如 何 使 用 MBean 的 。 
这 里 是 StorageServiceMBean 类 的 部 分 定义 ， 为 了 简洁 起 见 ， 一 些 操作 被 省 略 了 : 


public interface StorageServiceMBean 


{ 


public Set«String» getLiveNodes(); 
public Set«String» getUnreachableNodes(); 


public void forceTableFlush(String tableName, String... columnFamilies) 
throws IOException; 


public void removeToken(String token); 


PI 
} 
可 以 看 到 ， 从 这 个 MBean 的 接口 定义 看 不 出 什么 玄机 。 这 只 是 一 个 常规 的 定义 了 一 
fg 这 些 操作 将 暴露 给 JMX, StorageService 的 实现 必须 支持 它们 。 
常 意味 着 需要 维护 附加 的 元 数据 信息 ， 用 于 支持 这 些 的 操作 。 


StorageService 类 实现 了 这 个 接口 ， 于 是 必须 自己 直接 支持 JMX。 一 致 性 管理 
器 域 有 一 个 java.util.concurrent.ExecutorService 类 型 的 引用 , 不 过 ， 实 
际 的 实现 类 型 是 org.apache.cassandra.concurrent.JMXEnabledThreadPool- 
Executor 类 型 的 。 


private ExecutorService consistencyManager = 
new JMXEnabledThreadPoolExecutor (DatabaseDescriptor. 
getConsistencyThreads(), 
DatabaseDescriptor.getConsistencyThreads(), 
StageManager.KEEPALIVE, 
TimeUnit.SECONDS, 
new LinkedBlockingQueue«Runnable»(), 
new NamedThreadFactory ("CONSISTENCY-MANAGER")); 


JMXEnabledThreadPoolExecutor 实现 f JMXEnabledThreadPoolExecutor- 
MBean 接口 ， 因 而 也 实现 了 org.apache.cassandra.concurrent.IExecutor- 





MBean， 所 以 ， 所 有 使 用 线程 池 的 Cassandra 类 都 可 以 暴露 同样 的 操作 给 JMX, dE 
们 可 以 在 3MXEnabledThreadPoolExecutor 里 看 到 Cassandra 是 如 何 支 持 JMX 的 。 


执行 器 池 在 它 的 构造 器 里 向 平台 MBean 服务 器 注册 自己 ， 如 下 : 


public JMXEnabledThreadPoolExecutor(int corePoolSize, 
int maximumPoolSize, 
long keepAliveTime, 
TimeUnit unit, 
BlockingQueue«Runnable» workQueue, 
NamedThreadFactory threadFactory) 


super(corePoolSize, maximumPoolSize, keepAliveTime, unit, workQueue, 
threadFactory); 
super.prestartAllCoreThreads(); 


MBeanServer mbs - ManagementFactory.getPlatformMBeanServer(); 
mbeanName = "org.apache.cassandra.concurrent:type-" + threadFactory.id; 
try 


{ 
} 
catch (Exception e) 


i 
} 


mbs.registerMBean(this, new ObjectName (mbeanName)); 


throw new RuntimeException(e); 


这 里 ， 平 台 服务 器 就 是 嵌入 在 JDK 里 的 默认 服务 器 。MBean Weird, 然后 注册 到 
平台 Mbean 服务 器 上 ， 这 样 ，MBean 就 知道 要 监控 它 ， 并 可 以 通过 代理 进行 管理 。 


为 了 保持 系统 清河， 在 JMXEnabledThreadPoolExecutor 关闭 的 时 候 ， 这 个 类 
也 会 把 自己 从 MBean 服务 器 注销 : 





private void unregisterMBean() 


( 


try 


( 


ManagementFactory.getPlatformMBeanServer().unregisterMBean 
(new ObjectName (mbeanName)) ; 


) 


catch (Exception e) 


( 


throw new RuntimeException(e); 


} 
} 
与 此 类 似 ，storageService 类 也 会 为 自己 本 地 维护 的 JMX 属性 向 MBean 服 
务 器 进行 注册 和 注销 。 这 个 类 会 做 它 本 身 要 做 的 所 有 工作 ， 然 后 再 实现 那些 专门 
为 了 向 MBean 服务 器 提供 信息 的 方法 。 比 如 ， 下 面 是 StorageService 实现 的 
getUnreachableNodes 操作 。 





Gossiper 类 是 一 个 维护 IP 地 址 列表 的 单 例 ， 
的 节点 的 地 址 ， 所 以 ， 当 你 在 JMX 代理 


public Set«String» getUnreachableNodes() 


Í 
} 


return stringify (Gossiper.instance.getUnreachableMembers ()); 





包含 那些 和 本 市 点 





进行 收发 心跳 信息 
中 调用 getUnreachableNodes 方法 时 ， 


它 会 调用 storageservice HJ MBean Jj i. if StorageService 则 作为 代理 ， 
idi Gossiper 类 的 方法 ， 后 者 返回 不 可 达 的 卫 地 址 ， 并 包装 在 一 个 新 的 集合 中 ， 
这 样 调用 者 就 无 法 直接 修改 Gossiper 里 这 个 列表 的 内 容 了 。 


/* 不 可 达成 员 组 */ 


private Set«InetAddress» unreachableEndpoints | 


Í 
} 


new ConcurrentSkipListSet«InetAddress» (inetcomparator); 


PE S 


public Set«InetAddress» getUnreachableMembers() 


return new HashSet«InetAddress» (unreachableEndpoints ); 


当 我 们 在 JMX 代理 (也 就 是 Ve es 
这 个 集合 是 空 的 ， 没有 不 可 达 节 


Value 域 中 ， 如 





图 9-5 所 示 。 


点 。 如 果 有 不 可 达 


Thu. 


它们 的 IP PT 


能 很 欣慰 地 看 到 
会 出 现在 








x Java Monitoring & Management Console 

















出 jJMImplementation 
+) Server 
[+] com.sun.management 
+) java.lang 
+) java.util.logging 
[+] org.apache.cassandra.concurrent 
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9-5. StorageService 的 不 可 达 节 


在 





接 下 来 的 小 方 中 ， 我 们 将 逐 


点 属性 


个 包 地 看 看 可 以 使 用 JMX 来 监控 和 管理 


哪些 特性 。 
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9.4.1 org.apache.cassandra.concurrent 


这 个 包 提 供 了 Cassandra 的 线程 和 流 相 关 的 功能 。 因 而 ， 这 里 有 分 阶段 事件 驱动 架 
构 (SEDA) 类 、gossiper、 平 衡器 和 用 于 刷 写 memtable 中 数据 的 类 。 


这 些 MBean 大 部 分 只 允许 你 查看 属性 。 如 果 你 怀疑 Cassandra 环 上 有 数据 写 入 问题 
或 节点 不 均衡 的 问题 ， 可 以 从 这 里 开始 。 


按照 SEDA 的 架构 ，Cassandra 的 每 个 阶段 都 会 暴露 自己 的 MBean。 这 意味 着 你 可 
以 迅速 判断 出 ， 在 一 个 特定 时 刻 处 于 特定 阶段 的 对 象 有 多 少 个 。 这 些 阶 段 包 括 : 
«XE ER 

。 迁移 阶段 

。 响应 阶段 

。 行 改动 阶段 (用 于 删除 和 更 新 ) 

。 行 读 取 阶段 

。 流 阶 段 





对 于 每 个 阶段 ， 你 都 可 以 看 到 活动 的 、 完 成 的 和 等 待 中 的 任务 数 。 有 些 阶 段 ， 在 读 
写 数据 时 ， 维 护 了 它们 自己 的 线程 他， 而 且 MBean 允许 你 看 到 线程 池 的 尺寸 。 所 有 
阶段 对 象 都 只 暴露 属性 ， 不 允许 进行 任何 操作 。 


9.4.2 org.apache.cassandra.db 


这 个 包 里 是 关于 Cassandra 核心 数据 库 本 身 的 类 ， 它 们 作为 MBean 暴露 出 来 。 这 些 
类 包括 缓存 、 列 族 存储 、Commit Log ， 以 及 压 紧 管理 器 。 


你 可 以 看 到 Cassandra 维护 的 各 种 缓存 的 信息 一 一 包括 列 族 的 键 和 行 提 示 的 组 
存 一 一 用 于 存放 键 、 行 和 迁移 的 位 置 。 缓 存 显 示 的 信息 包括 缓存 的 当前 尺寸 、 容 量 、 
缓存 请 求 数量 、 缓 存 命中 数量 以 及 近期 的 缓存 行为 。 

列 族 存储 是 另 一 组 MBean， 它 们 不 仅 提 供 更 丰富 的 属性 值 ， 也 人 允许 进行 一 些 管 
理 操作 。 它 们 提供 memtable, SSTable 和 Bloom filter 的 使 用 状况 信息 。 你 可 
以 进行 的 操作 包括 强制 刷新 memtable、 通 过 调用 CompactionManager 类 的 
forceMajorCompaction 方法 发 起 主 压 紧 ， 或 使 行 缓存 无 效 。 

这 里 有 一 组 关于 读 写 数据 的 有 用 的 统计 信息 ， 位 于 columnFamilyStores > 


system > Schema bean 之 中 : 








。 总 读 计数 
这 是 Cassandra 所 进行 过 的 读 操作 的 总 数 ， 可 以 从 ReadCount 属性 得 到 。 


。 近期 读 时 延 
可 以 从 RecentReadLatencyMicros 属性 读 到 这 个 数值 (单位 为 毫秒 )。 还 可 以 
查看 TotalReadLatencyMicros 属性 ， 总 的 读数 量 与 读 时 延 相 乘 就 可 以 得 到 这 
个 数值 。 


如 果 你 发 现 性 能 正在 下 降 ， 可 以 方便 地 通过 这 些 统计 信息 进行 分 析 。 它 们 同时 也 展 
示 了 Cassandra 可 以 做 到 多 快 。 比 如 ， 在 我 的 8 核 服务 器 上 ， 在 小 数据 库 中 ， 人 简单 
值 的 写 时 延 可 以 达到 92 上 毫秒。 


这 组 MBean 还 提供 了 压 紧 管理 器 的 数据 ， 包 括 正在 进行 压 紧 的 进程 中 的 总 字 节 数 和 
历史 上 总 共 被 压 紧 的 字 节 数 。 





























9.4.3 org.apache.cassandra.gms 
这 个 包 有 一 个 提供 了 三 个 操作 的 MBean: fH] ESI KC, iR XU e ELCHE 
节点 故障 的 国 值 ， 默 认为 8。 


9.4.4 org.apache.cassandra.service 


service 包 提 供 了 两 个 bean: StorageService 和 StreamingService。 因 为 这 些 
类 是 Cassandra 操作 的 核心 ， 它 们 暴露 了 最 多 的 操作 ， 给 了 你 相当 多 的 外 部 控制 手 
段 。 让 我 们 用 一 些 时 间 来 研究 一 些 核心 成 员 。 


1. StorageService 

Cassandra 是 一 个 数据 库 ， 所 以 它 本 质 上 是 一 个 非常 复杂 的 存储 程序 ， p 当 你 遇 
到 问题 的 时 候 ， 应 该 看 的 第 一 个 地 方 就 是 StorageService MBean。 这 个 MBean 
允许 你 检查 operationMode， 如 果 一 切 进 行 得 平 清 顺 利 ， pell normal 
(其 他 可 能 的 状态 是 leaving, joining, decommissioned fll client). 


你 还 可 以 查看 当前 集群 的 活 节 点 与 不 可 达 节 点 。 如 果 有 节点 不 可 达 ，Cassandra 会 在 
UnreachableNodes 属性 中 告诉 你 它们 的 IP 地址 。 这 个 bean 还 提供 了 很 多 其 他 标准 
的 维护 操作 ， 理 解 这 些 可 用 操作 对 于 保持 集群 处 于 健康 状态 非常 重要 。 我 建议 你 亲自 
看 一 下 这 个 bean 的 代码 ， 当 然 ， 这 里 我 也 会 特别 介绍 一 些 重要 的 维护 操作 。 


如 果 你 希望 在 运行 时 改变 Cassandra 的 日 志 级 别 而 不 中 断 服务 (就 像 开 始 的 通用 例 
子 一 样 )， 可 以 调用 setLog4jLevel (String classQualifier, String level) 
































方法 。 例 如 ， 为 了 解决 某 个 问题 ， 将 Cassandra 的 日 志 级 别 设置 为 了 debug。 你 可 以 
使 用 这 里 提供 的 一 些 方法 来 修复 问题 ， 之 后 ， 准 备 将 系统 日 志 级 别 改 回 到 一 个 输出 
比较 少 的 级 别 。 这 样 ， 你 需要 在 JConsole 里 进入 到 storageservice MBean。 我 
们 将 改变 一 个 输出 特别 多 的 类 的 值 ，LoadDisseminatior。 这 个 操作 的 第 一 个 参 
数 就 是 你 要 修改 日 志 级 别 的 类 的 名 字 ， 第 二 个 参数 是 你 希望 设置 的 日 志 级 别 。 输 入 
org.apache.cassandra.service.LoadDisseminator 和 INFO， 然 后 单 击 写 有 
setLog4jLevel 的 按钮 。 你 将 看 到 如 下 输出 日 志 (假设 日 志 级 别 已 经 是 debug 了 ) : 





DEBUG 17:17:30,515 Disseminating load info ... 

INFO 17:17:42,001 set log level to INFO for classes under 
'org.apache.cassandra.service.LoadDisseminator' 

(if the level doesn't look like 'INFO' then 1og4j couldn't parse 'INFO') 


从 输出 中 可 以 看 到 ，Cassandra 记录 了 一 个 加 载 info 的 语句 ， 这 是 因为 之 前 的 日 志 
级 别 是 debug。 在 调用 setLog4jLevel 操作 之 后 ， 我 们 只 得 到 INFO 输出 ， 而 没有 
debug 级 别 的 日 志 输 出 语句 了 。 


要 了 解 每 个 节点 的 负载 ， 可 以 使 用 getLoadMap () 方法 ， 这 个 方法 返回 一 个 Java 
Map， 键 值 为 耻 地 址 ， 值 为 对 应 节点 的 负载 。 


如 果 你 在 查找 一 个 特定 的 键 值 ， 可 以 使 用 getNaturalEndpoints (String table, 
byte [] key) 操作 ， 传 递 的 参数 是 表 名 和 所 要 查找 端点 的 键 值 ， 方 法 将 返回 一 个 负 
责 存放 对 应 键 值 的 节点 的 IP 地 址 列表 。 


你 还 可 以 使 用 getRangeToEndpointMap 操作 ， 获 取 一 个 区 间 到 端点 的 映射 ， 描 绘 
出 环 的 拓扑 。 


如 果 要 废弃 一 个 服务 器 ， 也 可 以 使 用 这 个 MBean。 调 用 aecommission() 操作 ， 
这 样 当前 节点 的 数据 就 会 自动 地 传送 到 其 他 节点 上 ， 并 让 当前 节点 退出 服务 。 


如 果 你 足够 勇敢 ， 可 以 对 一 个 给 定 keyspace 中 的 给 定 列 族 调用 truncate 操作 。 如 果 
所 有 节点 都 可 用 ， 那 么 这 个 操作 将 删除 列 族 中 的 所 有 数据 ， 只 留 下 定义 。 


如 果 你 通过 其 他 MBean 发现 ， 市 点 已 经 非常 不 平衡 了 ， 那 么 进行 维护 的 好 办 法 是 使 
用 1oadBalance O 操作 。 不 平衡 随时 可 能 发 生 ， 一 些 节点 的 数据 可 能 会 过 于 热门 。 
这 个 操作 将 会 导致 当前 的 节点 分 出 一 部 分 数据 给 邻居 节点 ， 之 后 ， 它 会 自 举 并 从 环 
上 负载 最 重 的 节点 那里 接收 该 节点 负责 的 数据 。 





2. StreamingService 


org.cassandra.streaming.StreamingServiceMBean 定义 了 如 下 接口 : 


public interface StreamingServiceMBean 





public Set«InetAddress» getStreamDestinations(); 
public List«String» getOutgoingFiles(String host) throws IOException; 


public Set«InetAddress» getStreamSources(); 





public List«String» getIncomingFiles(String host) throws IOException; 


public String getStatus(); 
} 
这 里 有 两 个 基本 概念 : 流 源头 和 流 目 的 。 每 个 布点 可 以 将 它 的 数据 作为 流 发 送 给 另 
一 个 节点 ， 以 进行 负载 均衡 ， 这 个 类 就 支持 这 些 操作 。 这 些 MBean 方法 让 你 看 到 集 
群 中 有 关 数 据 在 节点 间 流 动 的 一 个 视图 。 
getStatus 方法 不 是 一 系列 可 能 状态 的 枚 举 值 。 它 会 返回 一 个 字符 串 ， 形 式 是 
ReceivingFrom: [node] SendingTo: [node]. 


StreamingService MBean 5 StorageService MBean 经 常 在 一 起 使 用 ， 如 果 你 
认为 一 个 本 该 接收 数据 的 节点 没有 接收 数据 ， 或 者 一 个 市 点 的 负载 不 均衡 甚至 是 宕 
机 了 ， 这 两 个 服务 可 以 在 一 起 给 你 丰富 的 可 视 信 息 ， 帮 助 你 发 现 集群 中 在 某 个 时 候 
到 底 发 生 了 什么 。 


9.5 定制 Cassandra 的 MBean 

如 果 你 希望 添加 一 些 新 的 支持 JMX 的 特征 ， 可 以 自己 进行 这 项 工作 。 我 们 来 快速 地 
写 一 个 简单 的 MBean， 来 看 看 这 是 如 何 做 到 的 。 这 并 不 困难 。 

首先 我 们 要 获取 源 人 代码， 并 在 要 包装 的 Cassandra W xc £E 37 31 a t — Ai MBean 接 


口 。 我 们 的 MBean 将 会 返回 Cassandra API 的 当前 版 本 ， 目 前 Cassandra 不 支持 这 
项 功能 。 这 个 MBean 看 起 来 就 像 这 样 : 





package org.apache.cassandra.thrift; 

public interface CassandraServerMBean { 

) 
现在 ， 需 要 打开 CassandraServer.java 的 源 代 码 ， 让 它 实 现 我 们 的 MBean 接口 ， 并 
JH: JMX 服务 器 。 最 后 ， 我 们 会 具体 实现 这 个 方法 。Thrift 生成 了 一 个 可 以 从 命令 
行 界面 获取 的 版 本 号 ， 我 们 会 直接 复 用 它 。 新 的 CassandraServer.java 类 会 成 为 这 样 : 


public String getVersion(); 





package org.apache.cassandra.thrift; 


import javax.management.MBeanServer; 





import javax.management.ObjectName; 


import org.apache.cassandra.auth.AllowAllAuthenticator; 
import org.apache.cassandra.concurrent.StageManager; 


// 其 他 import 


public class CassandraServer implements Cassandra.Iface, CassandraServerMBean 


( 


public static final String MBEAN OBJECT NAME - 
"org.apache.cassandra.service:type-CassandraService"; 


public CassandraServer() 


( 


storageService = StorageService.instance; 


final MBeanServer mbs - ManagementFactory.getPlatformMBeanServer(); 
try 


{ 
} 
catch (Exception e) 


1 
} 


mbs.registerMBean(this, new ObjectName(MBEAN OBJECT NAME)); 


throw new RuntimeException(e); 


} 
// 其 他 的 服务 器 实现 代码 


// MBean 钧 子 代 码 
public String getVersion() { 
String version = null; 


try { 
version - describe version(); 


} catch(TException e) { 
logger.warn("Cassandra server version unavailable: ", e.getMessage()); 
version - "unavailable"; 


) 


return version; 


我 们 实现 了 前 面 给 出 的 接口 ， 并 将 Cassandra 服务 器 与 管理 平台 连接 到 了 一 起 。 现 
在 需要 做 的 就 是 打开 一 个 终端 ， 进 入 到 «cassandra-home» 目录 ， 使 用 $ ant 命令 编 
译 代 码 ， 然 后 启动 服务 器 。 之 后 ， 运 行 jconsole， 连 接 到 服务 器 实例 。 如 图 9-6 
所 示 ， 你 应 该 可 以 看 到 这 个 属性 已 经 可 用 了 。 


这 里 的 8.1.0 是 作为 一 个 Thrift 常量 而 生成 的 API 版 本 号 ， 不必 和 Cassandra 版 本 号 
相对 应 。 
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9-6. 定制 的 MBean 提供 了 Cassandra 的 API 版 本 号 




















uw 如 果 你 在 修改 源 代 码 ， 但 是 不 确定 修改 了 什么 ， 可 以 通过 Subversion 来 检 
Wa. 查 本 地 工作 副本 和 从 代码 仓库 中 检 出 的 版 本 的 差异 。 使 用 svn diff 命令 


就 可 以 看 到 两 个 文件 的 变化 ， 并 可 以 把 比较 结果 输出 到 一 个 新 文件 : 


ebenGmorpheus:-$ svn diff 
/home/eben/cassandra/dist/trunk-svn-1/src/java/org/apache/ 
cassandra/thrift/CassandraServer.java 
/home/eben/cassandra/dist/trunk-svn-2/src/java/org/apache/ 
cassandra/thrift/CassandraServer.java 

»» /home/eben/CassandraServer.patch 


9.6 ”运行 时 分 析 工 具 


这 里 ， 我 们 不 需要 谈论 太 多 关于 JMX 的 细节 ， 但 如 果 要 理解 Cassandra 并 管理 它 ， 
了 解 它 通 过 JMX 暴露 出 来 的 特性 是 非常 有 帮助 的 。 同 样 ， 了 解 Java 直接 提供 的 一 
些 工具 也 很 有 好 处 ， 它 们 可 以 用 于 发 现 和 定位 内 存 泄漏 源 、 分 析 挂 起 的 进程 等 。 
为 Cassandra 是 一 个 Java 应 用 ， 而 且 还 很 年 轻 所 以 现在 还 没有 其 他 的 专门 针对 
Cassandra 的 第 三 方 分 析 工 具 。 























如 果 你 正在 调试 ， 不 确定 使 用 命令 行 接口 对 Cassandra 执行 了 什么 命令 ， 
可 以 查看 归属 目录 里 的 一 个 名 为 .cassandra.history 的 隐藏 文件 。 它 类 似 于 
Bash shell 的 命令 历史 ， 以 纯 文 本 的 形式 ， 按 照 执 行 顺序 列 出 了 所 有 执行 过 
的 命令 。 非 常 有 用 1! 














9.6.1 使 用 JMX 和 JHAT 进 行 堆 分 析 
在 调试 Cassandra 应 用 的 时 候 ， 经 常 需要 了 解 堆 上 究竟 发 生 了 什么 。 如 果 你 不 在 主干 上 ， 
或 者 其 他 什么 原因 不 大 确定 Cassandra 的 工作 状况 ， 这 些 Java 自 带 工具 可 以 帮助 你 。 





Cassandra 会 使 用 很 多 内 存 ， 而 且 垃 圾 回收 和 主 压 紧 对 性 能 有 很 大 的 冲击 。 这 里 ,一 
个 很 有 用 的 工具 就 是 Java 堆 分 析 工 具 (JHAT)。JHAT 使 用 HPROF 二 进 制 格式 创 
建 网 页 ， 允 许 你 浏览 堆 中 的 所 有 对 象 ， 查 看 所 有 堆 对 象 的 进出 引用 。 你 可 以 在 使 用 
这 个 JDK 提供 的 工具 的 同时 ， 从 JMX 获取 其 他 一 些 可 用 数据 。 





要 更 好 地 理解 堆 ， 可 以 使 用 com.sun.management.HotSpotDiagnostic bean, 
它 提供 了 一 个 名 为 aumpHeap 的 方法 。 这 是 在 MBean 中 操作 的 名 字 ， 所 以 JMX 代 
理 的 按钮 上 也 有 这 个 名 字 。 这 个 bean 允许 你 指定 一 个 希望 把 堆 转 储 到 的 目标 文件 
名 ， 然 后 单 击 按钮 ， 它 就 会 将 堆 信 息 写 入 到 你 指定 的 文件 中 了 。 不 过 ，dumpHeap 
操作 写 出 的 堆 状 态 文件 是 HPROF 二 进 制 格式 的 ， 这 个 格式 用 于 堆 和 CPU 的 性 能 分 
析 。 我 们 不 能 直接 看 二 进 制 文件 ， 而 需要 使 用 JHAT 来 查看 数据 。 

要 获得 堆 转 储 ， 只 要 运行 JConsole， 并 找到 com. sun. management .HotSpot- 


Diagnostic bean， 展 开 Operations 树 视 图 ， 单 击 dumpHeap 操作 。 输 入 你 希望 转 
储 到 的 目标 文件 的 相对 或 绝对 路 径 名 ， 如 图 9-7 所 示 。 
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图 9-7: 对 Cassandra 节点 调用 dumpHeap 操作 


打开 一 个 新 终端 ， 启 动 jconsole。 你 应 该 可 以 看 到 一 个 弹出 框 ， 提 示 说 方法 已 经 
成 功 调用 了 。 





你 也 可 以 使 用 JDK 附带 的 jmap 工具 而 不 使 用 图 形 界面 ， 获 得 堆 转 储 文件 。 首 先 找 
到 Cassandra 进程 的 进程 ID。 在 Linux 系统 中 ， 要 获取 进程 的 ID 可 以 使 用 ps 命令 
并 查找 “java  。 也 就 是 ， 如 果 你 有 很 多 正在 运行 的 Java 进程 ， 那 么 可 以 通过 更 精 
确 地 使 用 grep 查找 Cassandra 守护 程序 '。 























» oa 
te^ 你 可 以 在 Linux 系统 中 ， 打 开 一 个 终端 ， 如 下 运行 ps 命令 找到 Cassandra 
心 的 进程 ID 
$ ps -ef | grep 'CassandraDaemon' 
一 旦 得 到 Cassandra 的 进程 ID， 我 们 可 以 使 用 它 来 指定 希望 jmap 工具 进行 快照 的 


堆 。 这 有 助 于 我 们 找 出 挂 起 进程 、 定 位 内 存 泄 漏 源 等 。 


ebenGmorpheus:^$ jmap -dump:live,format-b,file-/home/eben/jmapdump.bin 4427 
Dumping heap to /home/eben/jmapdump.bin ... 
Heap dump file created 


现在 已 经 获取 了 堆 数据 ， 让 我 们 使 用 JHAT 工具 来 取出 它 。 ui 可 以 打 
开 一 个 终端 ， 输 入 类 似 如 下 的 内 容 ， 把 我 的 堆 转 出 文件 路 径 替 换 成 你 和 


$jhat /home/eben/jmapdump.bin 


这 个 命令 会 运行 相当 一 段 时 间 ， 然 后 输出 类 似 下 面 的 内 容 : 





Snapshot resolved. 
Started HTTP server on port 7000 
Server is ready. 


现在 ， 服 务 器 已 经 启动 了 ， 我 们 可 以 打开 浏览 器 ， 在 http://localhost:7000 查看 文 


件 。 堆 转 储 文件 是 可 移植 的 ， 在 生成 堆 转 储 之 后 ， 可 以 把 它 放 到 其 他 机 器 上 使 用 
JHAT 查看 。 





» a 


JHAT 需要 运行 一 阵 ， 然 后 在 7000 端口 启动 一 个 Web 服务 器 (JDK 6 开 

AAA HTTP 服务 器 ) ， 你 可 能 需要 关 掉 JConsole 或 其 他 
可 能 占用 这 个 个 端口 的 程序 ， 因 为 这 个 端口 是 不 可 配置 的 。 要 确定 端口 是 
否 可 用 ， ee 下 可 以 使 用 »netstat -o -a, fE Linux 下 可 以 使 用 


»netstat -o -a | less. 

















要 了 解 更 多 如 何 使 用 JHAT 的 信息 ， 可 以 查看 这 个 页 面 : http://java.sun. 
com/javase/6/docs/technotes/tools/share/jhat.htmI?, ski 过 jhat -Ph 来 查看 
帮助 信息 。 





























译注 1: 也 可 以 使 用 JDK 附带 的 jps 命令 ， 列 出 所 有 Java 进程 的 ID ， 会 直接 列 出 类 名 ， 比 ps 命令 更 直观 。 
译注 2: 由 于 被 Oracle 收购 ， 页 面 已 经 转向 http://download.oracle.com/javase/6/docs/technotes/tools/share/jhat.html , 
































生成 的 网 站 提供 了 一 些 选 项 ， 可 以 限制 查阅 的 范围 


。 所 有 类 ， 包 括 Java 平台 的 类 ， 

。 所 有 类 ， 不 包括 Java 平台 类 ; 

。 根 引 用 集 (root set) 的 所 有 成 员 ; 

。 所 有 类 的 实例 计数 ， 

。 扒 直 方 图 ， 显 示 所 有 类 和 它们 的 创建 实例 数 与 总 尺寸 ; 
。 等 待 finalizer 执行 的 类 。 


如 果 Cassandra 有 问题 ， 就 会 创建 一 个 hprof 文件 ， 同 时 我 们 可 以 看 到 如 下 输出 : 


DEBUG 16:13:17,640 Disseminating load info ... 

java.lang.OutOfMemoryError: Java heap space 

Dumping heap to java pid21279.hprof ... 

Heap dump file created [2766589 bytes in 0.032 secs] 

ERROR 16:13:34,369 Fatal exception in thread Thread[pool-1-thread-1,5,main] 

java.lang.OutOfMemoryError: Java heap space 
at org.apache.thrift.protocol.TBinaryProtocol.readStringBody (TBinaryProtocol 
.java:296) 
at org.apache.thrift.protocol.TBinaryProtocol.readMessageBegin (TBinaryProtocol 
.java:203) 
at org.apache.cassandra.thrift.Cassandra$Processor.process (Cassandra.java:1113) 














文件 将 会 存放 在 «cassandra-home» 目录 中 ， 你 可 以 这 样 打开 它 : 

$ jhat java pid21279.hprof 
JHAT 将 会 分 析 这 个 文件 ， 然 后 启动 服务 器 ， 你 就 可 以 通过 浏览 器 查看 崩溃 时 所 有 
对 象 的 状态 了 。 
此 外 ， 你 还 可 以 在 HTML 表单 中 执行 一 个 堆 数据 的 查询 ， 来 创建 定制 化 视图 。 对 象 
查询 语言 (OQL) 是 一 种 格式 和 SQL 类 似 的 用 于 查询 堆 转 储 文件 的 简单 语言 ， 可 以 
找 出 和 指定 属性 相 匹 配 的 对 象 。 图 9-8 中 的 查询 只 允许 我 们 查找 那些 属于 Cassandra 
的 org.apache.cassandra.db 包 的 对 象 。 
一 旦 查询 返回 结果 ， 你 就 可 以 单 击 类 名 来 查看 关于 它 的 详细 信息 。 


你 也 可 以 针对 更 具体 的 对 象 属性 进行 查询 。 比 如 ， 你 可 能 希望 只 过 滤 出 有 200 多 个 
字符 的 字符 串 的 对 象 。 用 OQL， 可 以 使 用 下 面 这 样 的 语句 : 





select s from java.lang.String s where s.count >= 200 


oa 


关于 对 象 查询 语言 的 更 多 细节 超出 了 本 书 的 范围 ， 不 过 它 并 不 难 使 用 。 
JHAT 工具 中 有 很 多 它 的 例子 ， 而 且 其 格式 与 SQL 很 类 似 。 还 有 一 些 很 不 
错 的 博客 文章 介绍 了 如 何 使 用 它 ， 特 别 是 A. Sundararajan 的 博客 ， 位 于 


http://blogs.sun.com/sundararajan/entry/querying java heap. with ogl, 
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Object Query Language (OQL) query 





All Classes (excluding platform) OQL Help 





select filter(heap.classes(), "/org.apache.cassandra.db./(it.name)") 











[ class org.apache.cassandra. db BinaryMemtable, class org apache cassandra db. Binary VerbHandler, class 
lorg.apache.cassandra. db. Column, class org apache.cassandra. db. ColumnFamily, class 

org.apache. cassandra. db. ColumnF amilySerializer, class org apache.cassandra. db. ColumnFamilyStore, class 

org.apache. cassandra. db. ColumnFarmilyStore$1, class org. apache.cassandra. db. ColumnFamilyStoreMBean, class 
org.apache. cassandra. db. ColumnIndexer, class org. apache.cassandra. db. ColumnSerializer, class 
org.apache.cassandra. db. CompactionManager, class org. apache.cassandra. db. CompactionManager$ 1, class 

org. apache.cassandra. db. CompactionManager$6, class 

org.apache.cassandra.db. CompactionManager$ AntiCompactionlterator, class 

org apache.cassandra. db. CompactionManager$CompactionExecutor, class 


org.apache. cassandra. db. CompactionManagerMBean, class org .apache cassandra. db DecoratedK ey, class 
org apache.cassandra db.DecoratedK ey$1, class org apache cassandra. db DecoratedE eySerializer, class 


@ obiectatox3a272e0-..htm ~ E Show all downloads... X 






























































9-8: 在 JHAT 中 使 用 对 象 查询 语言 ， 过 滤 出 db 包 中 的 Cassandra 类 
在 这 个 例子 里 ， 我 们 可 以 使 用 查询 结果 来 查看 字符 串 里 的 classpath 信息 : 


Object at 0x3a272e0 





instance of -ea -Xdebug 

-Xrunjdwp:transport-dt socket,server-y,address-8888,suspend-n 
-Xms128m -Xmx1G -XX:TargetSurvivorRatio-90 -XX:-AggressiveOpts 
-XX:4UseParNewGC -XX:4«UseConcMarkSweepGC -XX:«CMSParallelRemarkEnabled 
-XX:«HeapDumpOnOutOfMemoryError 

-XX:SurvivorRatio-128 -XX:MaxTenuringThreshold-0 
-Dcom.sun.management.jmxremote.port-8080 
-Dcom.sun.management.jmxremote.ssl-false 
-Dcom.sun.management.jmxremote.authenticate-false -Dcassandra 
-Dstorage-config-/opt/apache-cassandra-0.6.2/0.6.2-source/conf 
-Dcassandra-foreground-yes (24 bytes) 


这 是 一 个 迁 回 查看 classpath 开关 的 方法 ， 不 过 它 提 供 了 一 些 关 于 如 何 使 用 JMap 和 
JHAT 查找 你 感 兴趣 的 运 和 行 于 时 状态 的 思路 。 


9.6.2 发现 线程 问题 
如 果 你 从 JConsole 发 现 系统 变 慢 ， 或 是 无 法 控制 的 资源 消耗 增长 ， 可 能 希望 了 解 当 
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前 的 线程 行为 。Cassandra 大 量 使 用 了 线程 地 和 Java 的 并 发 库 ， 所 以 ， 了 解 它们 的 
状态 是 调试 的 一 项 重要 工作 。 


在 Jconsole 中 ， 单 击 Thread 标签 。 左 侧 窗 口 将 会 显示 出 线程 和 线程 池 的 列表 ， 你 可 
以 单 击 任何 一 个 来 查看 调用 栈 。 这 个 视图 还 将 显示 它们 的 当前 状态 。 如 果 你 看 到 任 
何 线程 处 于 stuck 状态 ， 这 就 可 能 是 服务 器 没有 正常 释放 资源 的 信号 ， 你 将 会 围绕 
这 个 线程 开始 查找 性 能 瓶颈 。 如 果 很 多 线程 开始 排队 进入 stuck 的 状态 ， 服 务 器 就 
将 最 终 崩 涡 了 。 如 果 你 正在 查看 异常 的 堆 占用 增长 ， 而 垃圾 回收 并 没有 释放 出 空间 
来 ， 可 能 有 线程 stuck 的 问题 ， 你 可 以 检查 Jconsole 的 线程 部 分 来 查看 线程 状态 。 














在 Java 中 ,“stuck” 线 程 是 指 应 用 在 一 个 超时 周期 后 ， 将 该 线程 放 到 了 
Waa “stuck” 状 态 ， 也 就 是 说 ， 应 用 已 经 确定 ， 在 一 定时 间 内 工作 没有 完成 ， 
那么 这 个 线程 将 永远 也 无 法 完成 它 的 工作 。 这 会 阻止 它 重新 被 放 回 到 线程 
池 中 ， 也 就 是 说 ， 新 的 工作 的 可 用 线程 会 变 少 ， 也 意味 着 性 能 开始 受到 影 
响 。 


























最 后 ， 如 果 你 关心 是 否 有 互相 死 锁 的 线程 ， 可 以 单 击 Detect Deadlock 按钮 。 


9.7 ”健康 检查 
有 一 些 基本 的 检查 ， 可 以 借 此 确保 集群 中 的 节点 处 于 健康 状态 。 


检查 org.apache.cassandra.concurrent .ROW MUTATION STAGE MBean, iX 
里 你 可 以 看 到 完成 任务 数 在 增长 ， 这 意味 着 写 操作 (插入 、 更 新 和 删除 ) 在 不 断 发 
生 且 成 功 完成 。 

检查 org.apache.cassandra.concurrent.ROW READ STAGE MBean, 这 里 ， 


也 要 确认 完成 任务 计数 在 增长 ， 这 意味 着 读 请 求 在 不 断 进 入 并 成 功 完 成 。 


确认 这 两 个 MBean 中 的 PendingTasks 属性 的 值 不 会 增长 太 高 。 即 使 这 个 数值 不 
是 很 小 ， 也 应 该 是 相对 稳定 的 。 持 续 增 长 的 等 待 任务 意味 着 Cassandra 在 应 付 负载 
时 遇 到 了 麻烦 。 和 一 般 数 据 库 一 样 ， 一 旦 问题 开始 了 ， 它 就 会 持续 急剧 恶化 。 三 件 
事情 可 以 改善 情况 : 降低 负载 、 向 上 扩展 (升级 硬件 ) 或 是 水 平 扩展 〈 增 加 节点 并 
重新 均衡 ) 。 


和 通常 一 样 ， 检 查 日 志 ， 并 确保 没有 ERROR 级 别 的 日 志 报 告 。 











9.8 小 结 


本 章 中 ， 我 们 介绍 了 监控 和 管理 Cassandra 集群 的 方法 。 特 别 地 ， 我 们 详细 介绍 了 
JMX 的 一 些 细节 ， 学 习 了 Cassandra 通过 MBean 服务 器 提供 的 各 种 丰富 操作 。 我 们 
看 到 了 如 何 使 用 JConsole 查看 Cassandra 集群 中 所 发 生 的 事 ， 并 执行 基本 的 管理 任 
务 。 如 果 你 希望 的 话 ， 我 们 可 以 使 用 很 少 的 Java 代码 自己 使 用 MBean， 通 过 JMX 
提供 新 的 可 监控 与 可 管理 功能 。 


我 们 还 比较 深入 地 学 习 了 如 何 使 用 Java 开 发 套件 (IDK) 中 的 工具 来 了 解 
Cassandra 运行 时 对 象 的 图 景 。 使 用 JMap 和 Java 堆 分 析 工 具 (JHAT)， 我 们 可 以 对 
程序 的 内 存 进行 快照 ， 然 后 使 用 对 象 查询 语言 (OQL) 查找 具有 我 们 关心 的 属性 的 
XH. 


还 有 很 多 其 他 更 强大 的 维护 监控 工具 ， 但 这 些 足够 帮 你 起 步 了 。 你 的 组 织 可 能 已 经 
在 使 用 一 个 可 以 加 入 钩子 的 工具 ， 比 如 OpenNMS (参考 http://www.opennms.org), 
这 个 工具 有 JMX $9 f. X An Nagios， 这 是 一 个 开源 、 免 费 而 且 相 当 直 接 的 工具 。 
它 有 直接 连接 JMX 的 优势 ， 而 且 这 就 是 Mahalo 监控 Cassandra 环 的 工具 。 








PES 


Mahalo 上 有 一 篇 文章 写 了 它们 是 如 何 集成 Nagios 和 JMX 的 ， 链 接 为 


http://www.mahalo.com/how-to-monitor-cassandra-with-nagios 。 








现在 ， 你 应 该 已 经 准备 好 进行 日 常 维护 了 ， 更 好 地 了 解 了 Cassandra 集群 ， 并 知道 
如 何 进行 一 些 常 规 和 更 细 粒 度 的 调节 工作 以 保持 Cassandra 的 健康 。 
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在 本 章 中 ， 我 们 会 介绍 一 些 用 于 保持 Cassandra 健康 运行 的 东西 。 所 以 ， 带 上 你 的 
安全 帽 ， 我 们 开始 吧 。 








Cassandra 自 带 的 Nodetool 位 于 «cassandra-home»/bin 目录 。 这 是 个 命令 行程 序 ， 
提供 了 丰富 的 查看 集群 、 了 解 其 行为 并 调整 集群 的 功能 。 通 过 Nodetool， 你 可 以 得 
到 有 关 集 群 的 有 限 统计 信息 ， | 在 节点 间 移 动 数据 、 退 服 
市 点 ， 其 至 是 修复 遇 到 问题 的 市 


Nodetool 的 很 多 功能 和 JMX 接口 提供 的 功能 是 重合 的 。 这 是 因为 在 台面 之 

p^ TF, Nodetool 也 是 使 用 一 个 称 为 NodeProbe 的 辅助 类 来 调用 JMX 的 。 所 

U^ 以 JMX 是 进行 实际 工作 的 ，Nodeprobe 用 于 连接 到 JMX 代理 并 取出 数 
据 ， 而 Nodecma 类 用 于 在 交互 式 命令 行 界面 中 展现 数据 。 


要 使 用 Nodetool， 需 要 和 Cassandra 本 身 完 全 一 样 的 环境 ， 也 就 是 说 ， 它 需要 同样 
的 classpath 和 日 志文 件 。 


PA 
i 
S 


























命令 行 的 n om apache.cassandra.tools.NodeCmd 的 一 个 


Qua. 包装。 如 果 你 希望 确切 了 解 它 是 如 何 工作 的 ， 可 以 查看 该 类 的 源 代码 。 


DS 








启动 Nodetool 易如反掌 ， 只 要 打开 一 个 终端 ， 进 入 <cassandra-home> 目录 ， 并 执 
行 如 下 命令 : 
$bin/nodetool 


X2. EROS 行 会 得 到 错误 和 输出， 不 过 这 也 使 程序 输出 一 组 可 用 的 命令 ， 下 面 就 会 介 
如 命令 


o 
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10.1 获取 环 的 信息 


你 可 以 了 解 到 关于 环 和 环 上 市 点 的 很 多 信息 ， 这 就 是 本 市 的 内 容 。 你 可 以 获取 一 个 
单独 的 节点 或 是 环 上 所 有 节点 的 基本 信息 。 


10.1.1 Info 
最 直接 的 方式 就 是 使 用 info 命令 。 它 告诉 Nodetool 连接 一 个 节点 ， 并 获取 关于 它 
当前 状态 的 基本 数据 。 只 要 把 要 查询 的 节点 的 地 址 作为 参数 传人 即 可 : 


$ bin/nodetool -h 192.168.1.5 info 
134439585115453215112331952664863163581 


Load : 3.93 MB 
Generation No : 1277663698 
Uptime (seconds) : 19639 

Heap Memory (MB) : 36.60 / 1011.25 


这 里 ， 唯 一 可 能 有 疑问 的 内 容 是 “Generation No” 域 。 这 是 每 个 端点 的 心跳 状态 ， 
由 Gossiper 使 用 一 个 时 间 戳 来 维护 。 


10.1.2 Ring 
要 确定 环 上 有 哪些 节点 ， 它 们 状态 如 何 ， 可 以 使 用 Nodetool 的 nost 和 ring FX, 
如 下 : 


$ bin/nodetool -host 192.168.1.5 ring 


它 会 输出 类 似 这 样 的 结果 : 


Address Status Load Range Ring 
41654880048427970483049687892424207188 

192.168.1.5 Up 1.71 KB 20846671262289044293293447172905883342 |«--] 

192.168.1.7 Up 2.93 KB 41654880048427970483049687892424207188 |-->| 


这 里 ， 我 们 可 以 看 到 环 上 所 有 节点 的 IP 地 址 。 这 个 例子 里 有 两 个 节点 ， 一 个 在 LS, 
另 一 个 在 1.7， 两 个 节点 的 状态 都 是 up (目前 可 用 且 可 以 接受 查询 )。 其 中 的 load 
列表 示 每 个 节点 保存 的 数据 量 。 


区 间 令 牌 

keyspace 中 的 数据 会 划分 为 区 间 。Cassandra 为 集群 中 的 每 个 节点 分 配 唯一 的 令 牌 ， 
称 为 区 间 令 牌 (range token)， 这 决定 了 哪个 键 值 的 主 副本 会 放 在 这 个 节点 上 。 使 用 
ring 开关 进行 查询 得 到 的 区 间 列 就 是 每 个 节点 负责 的 令 牌 。 





^R E- 
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有 一 个 特殊 的 区 间 称 为 “ 折 回 区 间 ”(wrapping range)。 令 牌 值 最 低 的 节点 在 分 到 其 
令 牌 值 以 下 的 所 有 和 键 值 的 同时 ， 也 拥有 最 大 令 牌 值 之 上 的 令 牌 也 就 是 说 ， 从 最 大 
的 值 折 回 到 最 小 的 值 。 


10.2 ”获取 统计 信息 


Nodetool 15s Je Vt 45 Ut SERA SUCI XI IS SA is Sc HE fe B. 与 info Jf X48 
比 ， 这 会 给 出 详细 得 多 的 数据 信息 。 有 两 个 基本 的 统计 信息 命令 : cfstats 和 
tpstats， 我 们 都 会 介绍 到 。 


10.2.1 使 用 cfstats 


要 查看 每 个 列 族 数据 的 概述 信息 ， 可 以 使 用 cfstats 开关 。 这 个 命令 会 给 出 集群 的 
性 能 指标 。 要 查看 列 族 的 统计 数据 ， 执 行 如 下 Nodetool 命令 (当然 ， 得 把 IP 地 址 
替换 成 你 集群 中 的 节点 的 地 址 ) : 


$ bin/nodetool -host 192.168.1.5 cfstats 


令 会 产生 类 似 这 样 的 输出 : 





Keyspace: Keyspacel 
Read Count: 13 
Read Latency: 0.3252307692307692 ms. 
Write Count: 3 
Write Latency: 0.13266666666666665 ms. 
Pending Tasks: 0 
Column Family: StandardByUUID1 
SSTable count: 0 
Space used (live): 0 
Space used (total): 0 
Memtable Columns Count: 0 
Memtable Data Size: 0 
Memtable Switch Count: 0 
Read Count: 0 
Read Latency: NaN ms. 
Write Count: 0 
Write Latency: NaN ms. 
Pending Tasks: 0 
Key cache capacity: 200000 
Key cache size: 0 
Key cache hit rate: NaN 
Row cache: disabled 
Compacted row minimum size: 0 
Compacted row maximum size: 0 
Compacted row mean size: 0 
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Column Family: Standard2 
SSTable count: 1 

Space used (live): 379 

Space used (total): 379 
Memtable Columns Count: 0 
Memtable Data Size: 0 
Memtable Switch Count: 1 

Read Count: 13 

Read Latency: 0.325 ms. 

Write Count: 3 

Write Latency: 0.133 ms. 
Pending Tasks: 0 

Key cache capacity: 1 

Key cache size: 0 

Key cache hit rate: NaN 

Row cache: disabled 
Compacted row minimum size: 0 
Compacted row maximum size: 0 
Compacted row mean size: 0 


这 里 为 了 简单 ， 只 截取 了 部 分 输出 ， 它 为 每 个 列 族 生 成 同样 的 统计 信息 。 你 可 以 查 
看 读 写 时 延 、 读 写 总 数 、 缓 存 命 中 率 ， 还 可 以 在 Pending Tasks 计数 中 看 到 尚未 完成 
的 任务 数 。 


如 果 看 到 了 一 个 很 大 的 等 待 任务 数 ， 特 别 是 一 个 正在 增长 的 等 待 任务 数 。 
。 这 可 能 意味 着 Cassandra 处 于 资源 不 足 的 状态 ， 无 法 应 付 负 载 了 。 如 果 
Nodetool 检查 出 了 很 大 的 等 待 任务 数 ， 需 要 ( 像 第 9 章 介 绍 的 那样 ) 用 
JMX 进行 检查 ,或 是 (按照 接 下 来 的 内 容 ) 执行 tpstats 命令 ,来 查 
看 哪些 任务 处 于 什么 阶段 。 比 如 ， 如 果 很 多 任务 处 于 ROW-MUTATION- 
STAGE ( 写 ) 可 能 意味 着 插入 、 更 新 或 删除 的 请 求 进 入 速度 比 Cassandra 
的 执行 速度 高 了 。 














这 里 的 统计 数据 展示 了 Cassandra 到 底 有 多 快 。 不 可 否认 ， 这 里 的 负载 非常 低 ， 不 
过 写 时 延 1/10 毫秒 仍然 是 个 很 快 的 数值 了 。 


10.2.2 使 用 tpstats 


tpstats 工具 给 出 Cassandra 维护 的 线程 池 的 信息 。Cassandra 是 高 并 发 的 ， 并 且 特 
别 为 多 处 理 器 、 多 核 的 计算 机 优化 。 而 且 ，Cassandra 内 部 采用 了 分 阶段 事件 驱动 架 
构 (SEDA)， 所 以 ， 了 解 线程 地 的 行为 和 健康 状态 对 于 Cassandra 维护 非常 重要 。 


要 获得 线程 池 的 统计 信息 ， 可 以 使 用 tpstats 开关 执行 Nodetool， 如 下 : 


$ bin/nodetool -host 192.168.1.5 tpstats 





E 
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这 回 生 成 表示 特定 节点 上 的 线程 池 的 数据 的 ASCII 文本 输出 : 



































Pool Name Active Pending Completed 
FILEUTILS-DELETE-POOL 0 0 101 
MESSAGING-SERVICE-POOL 2 4 71594081 
STREAM-STAGE 0 0 2 
RESPONSE-STAGE 0 0 38154433 
ROW-READ-STAGE 0 0 12542 
LB-OPERATIONS 0 0 0 
COMMITLOG 1 0 65070187 
GMFD 0 0 1002891 
MESSAGE-DESERIALIZER-POOL 0 0 105025414 
LB-TARGET 0 0 0 
CONSISTENCY-MANAGER 0 0 2079 
ROW-MUTATION-STAGE 1 1 52419722 
MESSAGE-STREAMING-POOL 0 0 121 
LOAD-BALANCER-STAGE 0 0 0 
FLUSH-SORTER- POOL 0 0 115 
MEMTABLE-POST-FLUSHER 0 0 115 
COMPACTION-POOL 0 0 364 
FLUSH-WRITER-POOL 0 0 115 
HINTED-HANDOFF-POOL 0 0 154 





你 可 以 直接 看 到 每 个 阶段 里 有 多 少 操 作 ， 以 及 它们 的 状态 是 活动 中 、 等 待 还 是 完成 。 
这 个 输出 是 在 写 操作 进行 过 程 中 捕捉 到 的 ， 所 以 ， 其 中 显示 ROW-MUTATION- 
STAGE 有 活动 中 的 任务 。 


看 到 很 多 0 意味 着 服务 器 进行 的 活动 非常 少 ， 或 者 Cassandra 正在 进行 异常 的 工作 
来 跟 上 负载 。 


10.3 ”基本 维护 工作 


在 进行 一 些 比较 有 影响 的 任务 之 前 或 之 后 ， 你 需要 进行 一 些 其 他 任务 。 比 如 ， 只 有 
在 进行 完 刷 写 (flush) 操作 之 后 ， 进 行 快照 才 有 意义 。 在 本 市 中 ， 我 们 就 来 看 看 这 
些 基 本 的 维护 任务 : 修复 、 快 照 和 清理 (cleanup)。 


10.3.1 修复 


运行 nodetool repair 会 让 Cassandra 执行 一 次 主 压 紧 。 目 标 节 点 会 计算 出 一 个 数 
HAJ Merkle 树 ， 然 后 将 它 与 其 他 副本 上 的 树 进 行 对 比 。 这 步 会 确保 不 会 落下 任何 可 
能 与 其 他 节点 失去 同步 的 信息 。 


在 一 次 主 压 紧 中 (参考 词汇 表 中 的 “ 压 紧 ”")， 服 务 器 会 发 起 一 个 TreeRequest/ 
TreeReponse 会 话 ， 与 相 邻 节点 交换 Merkle 树 。Merkle 树 是 列 族 数据 的 一 个 哈 希 
表示 。 如 果 不 同 节点 的 树 不 匹配 ， 它 们 就 会 进行 重新 协调 (或 “修复 ”)， 来 确定 它 
们 应 该 设置 为 最 新 的 数据 值 。 树 比较 验证 由 org.apache.cassandra.service. 




















维护 | 201 


AntiEntropyService 类 负责 。 AntiEntropyService 实现 了 单 例 模式 ， 并 定义 
了 静态 的 比较 器 类 ， 用 于 比较 两 棵 树 。 如 果 它 发 现任 何 差 异 ， 都 会 为 不 一 致 的 部 分 
发 起 一 次 修复 。 


Cassandra 会 偶尔 自动 处 理 这 样 的 问题 ， 你 也 可 以 自己 来 发 起 它 。 








3f 88 FEL TIE E538 fJ Dynamo 中 ，Cassandra 根据 它 的 模型 实现 了 这 个 机 制 
(如 果 你 有 学 术 上 的 兴趣 ， 可 以 阅读 Dynamo 论文 的 4.7 节 )。 











repair 命令 与 其 他 Nodetool 命令 不 同 ， 需 要 传人 你 要 修复 的 指定 keyspace 的 名 字 : 
$ bin/nodetool repair Keyspacel -h 192.168.1.7 
运行 完 这 个 工具 之 后 ， 你 可 以 看 到 少量 的 服务 器 日 志 输 出 ， 类 似 这 样 : 
DEBUG 13:34:59,683 Started deliverAllHints 
INFO 13:34:59,684 Compacting [] 


DEBUG 13:34:59,684 Expected bloom filter size : 128 
DEBUG 13:34:59,685 Finished deliverAllHints 





什么 是 Merkle fij 


Merkle 树 是 以 它 的 发 明 者 Ralph Merkle 命名 的 ， 又 称 为 “ 哈 希 树 ”。 它 的 数据 
结构 是 一 个 二 又 树 ， (eee peu. 在 哈 硕 树 里 ， 叶 子 节 点 是 
要 进行 摘要 的 数据 块 (通常 是 文件 系统 中 的 文件 )。 树 中 的 每 个 父 节点 都 是 它 
的 直接 子 节点 的 哈 项 ， up 紧密 压 紧 摘要 信息 。 


Cassandra 中 ，Merkle 树 由 org.apache.cassandra.utilsMerkleTree 类 实现 。 


在 Cassandra 之 中 ，Merkle 树 用 于 保证 对 等 网 络 中 节点 收 到 的 数据 块 是 未 被 修 
改 和 破坏 的 。 它 们 还 用 于 加 密 和 验证 文件 和 数据 传输 的 内 容 ， 同 时 Merkle 树 
也 用 于 Google Wave 产品 之 中 。 























天 为 主 压 紧 是 个 非常 复杂 和 敏感 的 操作 ， 所 以 这 个 任务 不 应 该 运行 得 太 过 
频繁 (不 应 该 每 天 运行 )， 只 应 该 在 低 负载 的 时 候 进 行 。 








10.3.2. W5 


数据 存放 于 memtable 中 。 要 强制 把 memtable 中 的 数据 写 到 文件 系统 上 的 SSTable 
中 ， 可 以 使 用 Nodetool 的 flush 命令 ， 如 下 : 


bin/nodetool flush -h 192.168.1.1 -p 9160 





E 
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如 果 检 查 服务 器 日 志 ， 可 以 看 到 类 似 这 样 的 输出 : 





DEBUG 15:16:33,945 Forcing binary flush on keyspace Keyspacel, CF Standard2 
DEBUG 15:16:33,945 Forcing flush on keyspace Keyspacel, CF Standard2 
INFO 15:16:33,945 Standard2 has reached its threshold; 

Switching in a fresh Memtable at 

CommitLogContext (file-' /var/lib/cassandra/commitlog/CommitLog1277663698134 

.log', position-1390) 

78 err 
INFO 15:16:34,104 Completed flushing /var/lib/cassandra/data/Keyspacel/ 
Standard2-3-Data.db 


10.3.3 清理 

有 一 个 运行 了 一 段 时 间 的 集群 ， 你 希望 修改 副本 因子 或 副本 策略 。 这 是 可 能 的 ， 但 
有 两 个 警告 。 首 先 ， 这 种 工作 一 般 不 应 该 在 运行 的 集群 中 进行 ， 所 以 一 般 需 要 关闭 
一 些 节 点 ， 再 重新 启动 它们 ， 即 使 已 经 动态 更 新 了 配置 信息 。 其 次 ， 完 成 之 后 需 
运行 Nodetool 的 cleanup 命令 ， 以 确保 一 切 正 常 。 





你 可 以 用 cleanup 作为 参数 ， 对 希望 清理 的 节点 运行 Nodetool: 
$ bin/nodetool cleanup -h 192.168.1.7 


这 个 命令 会 被 执行 ， 然 后 立即 返回 。 实 际 上 ， 这 是 在 指定 节点 上 运行 一 个 反 压 紧 操作 。 


10.4 ”快照 


快照 用 于 对 一 个 节点 的 某 些 或 全 部 keyspace 进行 复制 ， 并 将 它 保存 到 一 个 独立 的 数 
据 库 文件 中 去 。 这 意味 着 可 以 把 keyspace 备份 到 其 他 地 方 ， 或 者 是 把 它们 留 在 原 
地 ， 当 需要 的 时 候 再 复原 它们 。 





10.4.1 进行 快照 

当 对 一 个 或 多 个 keyspace 进行 快照 的 时 候 ，Cassandra 会 调用 Table 类 ， 它 会 对 每 
个 列 族 调 用 快照 方法 。 这 就 是 使 用 Java 的 文件 工具 ， 复 制 一 份 SSTable 文件 。 注 
意 ， 这 里 有 一 个 问题 ， 如 果 数 据 存在 于 commit log 之 中 ， 它 将 不 是 快照 的 一 部 分 ， 
只 有 被 刷 写 之 后 的 数据 才能 成 为 快照 的 一 部 分 ， 因 为 存储 服务 实际 上 就 是 进行 了 一 
次 直接 的 文件 复制 。 





要 在 创建 快照 之 前 进行 刷 写 ， 参见 10.3.2 5. 








维护 | 203 


进行 快照 可 以 直接 使 用 如 下 命令 : 
$ bin/nodetool -h 192.168.1.5 snapshot 
这 会 在 服务 器 日 志 中 打印 出 已 经 进行 快照 的 提示 : 


DEBUG 14:25:15,385 Snapshot for Keyspacel table data file 
/var/lib/cassandra/data/Keyspacel/Standard2-1-Filter.db 

created as /var/lib/cassandra/data/Keyspacel/snapshots/1277673915365/ 
Standard2-1-Filter.db 


DEBUG 14:25:15,424 Snapshot for system table data file 
/var/lib/cassandra/data/system/LocationInfo-9-Filter.db 

created as /var/lib/cassandra/data/system/snapshots/1277673915389/ 
LocationInfo-9-Filter.d 


注意 ， 快 照 已 经 存放 在 已 执行 快照 的 时 间 戳 命名 的 文件 夹 中 了 ， 其 中 的 数据 文件 和 
Cassandra 的 常规 表 文 件 一 样 ， 带 有 .db 扩展 名 。 这 里 是 对 服务 器 上 的 所 有 keyspace 
都 进行 了 快照 ， 包 括 了 system 这 个 Cassandra 的 内 部 keyspace。 


如 果 你 希望 对 一 个 指定 的 keyspace 进行 快照 ， 可 以 把 keyspace 名 字 作 为 一 个 附加 参 
数 传 给 Nodetool: 


$ bin/nodetool -h 192.168.1.5 snapshot Keyspacel 


PA 


p 你 不 必 把 快照 放 到 其 他 地 方 去 进行 备份 。 如 果 节 点 的 数据 文件 破坏 了 ， 你 
A 
uM 








把 这 些 文件 留 在 Cassandra 创建 它们 的 地 方 会 更 容易 恢复 。 








如 果 你 希望 恢复 一 个 之 前 进行 的 快照 ， 有 几 步 工作 需要 做 。 首 先 关 闭 节点 ， 并 删除 
旧 的 SSTable 和 commit log， 然 后 把 快照 目录 里 的 所 有 文件 复制 到 常规 数据 目录 里 
即 可 。 


10.4.2 ”清除 快照 


你 可 以 删除 任何 曾经 做 过 的 快照 ， 比 如 你 已 经 把 它们 备份 到 其 他 地 方 永 久 存储 起 来 
了 。 要 清除 快照 ， 可 以 使 用 Nodetool 的 clearsnapshot 开关 。 


你 会 看 到 服务 器 有 这 样 的 日 志 输 出 : 





DEBUG 14:45:00,490 Disseminating load info ... 
DEBUG 14:45:11,797 Removing snapshot directory 
/var/lib/cassandra/data/Keyspacel/snapshots 
DEBUG 14:45:11,798 Deleting Standard2-1-Index.db 
DEBUG 14:54:45,727 Deleting 1277675283388-Keyspacel 


// 清除 其 他 数据 文件 
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DEBUG 14:54:45,728 Deleting snapshots 
DEBUG 14:45:11,806 Cleared out all snapshot directories 


注意 这 里 的 发 生 的 事情 : 所 有 的 快照 都 被 清除 了 ， 包 括 存放 在 系统 表 中 的 这 个 
keysace 的 信息 。 


10.5 “对 集群 进行 负载 均衡 
如 果 你 发 现 集群 变 得 不 均衡 了 ， 可 能 是 因为 其 个 区 间 内 插入 了 很 多 键 值 ， 可 以 重新 
分 布 数据 来 让 集群 重新 变 得 均衡 。 


负载 均衡 与 流 

使 用 1oadbalance 开关 执行 Nodetool 会 将 一 个 节点 退 服 ， 并 将 它 的 令 牌 发 给 其 他 
节点 ， 然 后 再 让 它 重新 自 举 。loadbalance 命令 实际 就 是 退 服 和 自 举 两 步 独立 任务 
的 一 个 封装 。 


如 果 你 有 很 多 数据 ， 负 和 载 均衡 会 消耗 很 长 的 上 时间。 可 以 通过 用 stream 开关 调用 
Nodetool 来 监控 负载 均衡 操作 。 


这 里 我 们 使 用 loadbalance 参数 调用 Nodetool 来 把 1.5 节点 上 的 数据 散布 到 其 他 
节点 上 : 








$ bin/nodetool -host 192.168.1.5 loadbalance 


这 样 就 开始 了 负载 均衡 过 程 。 当 这 一 切 进行 的 时 候 ， 我 们 可 以 对 希望 检查 的 节点 使 
用 streams 参数 ， 来 确定 其 他 节点 都 是 正常 的 : 





ebenemorpheus$ bin/nodetool streams -h 192.168.1.5 
Mode: Leaving: streaming data to other nodes 

Not sending any streams. 

Not receiving any streams. 


ebenemorpheus$ bin/nodetool streams -h 192.168.1.7 
Mode: Normal 

Not sending any streams. 

Not receiving any streams. 


一 旦 负载 均衡 完成 ， 我 们 可 以 从 日 志 中 看 到 负载 均衡 过 程 中 都 发 生 了 什么 。 


这 里 可 以 看 到 ，1.5 上 的 节点 在 开始 负载 均衡 之 后 ， 开 始 离开 集群 ， 把 它 的 数据 发 送 
给 其 他 节点 ， 然 后 自 举 自己 ， 再 开始 重新 接收 数据 。 这 就 是 负载 均衡 的 效果 。 


DEBUG 10:46:58,727 Leaving: old token was 20846671262289044293293447172905 
883342 
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DEBUG 10:46:58,746 Pending ranges: 
/192.168.1.7: 
(41654880048427970483049687892424207188, 
20846671262289044293293447172905883342] 


INFO 10:46:58,746 Leaving: sleeping 30000 for pending range setup 
DEBUG 10:46:59,323 Disseminating load info 
DEBUG 10:47:28,748 Node /192.168.1.5 ranges 
[(41654880048427970483049687892424207188,208466712622890442932934471729 
05883342]] 
DEBUG 10:47:28,749 Range 
(41654880048427970483049687892424207188,20846671262289044293293447172905883342] 
will be responsibility of /192.168.1.7 
DEBUG 10:47:28,750 Ranges needing transfer are 
[(41654880048427970483049687892424207188,20846671262289044293293447172905883342]] 
INFO 10:47:28,750 Leaving: streaming data to other nodes 
DEBUG 10:47:28,753 Beginning transfer process to /192.168.1.7 for ranges 
(41654880048427970483049687892424207188,20846671262289044293293447172905883342] 
INFO 10:47:28,753 Flushing memtables for Keyspacel... 

INFO 10:47:28,753 Performing anticompaction 
DEBUG 10:47:28,754 waiting for stream aks. 

INFO 10:47:28,754 AntiCompacting [org.apache.cassandra.io.SSTableReader( 
path-'/var/lib/cassandra/data/Keyspacel/Standard2-1-Data.db')] 
DEBUG 10:47:28,755 index size for bloom filter calc for file 
/var/lib/cassandra/data/Keyspacel/Standard2-1-Data.db : 256 
DEBUG 10:47:28,755 Expected bloom filter size :128 

INFO 10:47:28,886 AntiCompacted to /var/lib/cassandra/data/Keyspacel/stream/ 
Standard2-2-Data.db. 

239/239 bytes for 1 keys. Time: 131ms. 

INFO 10:47:28,887 AntiCompacting [] 
DEBUG 10:47:28,887 Expected bloom filter size : 128 

INFO 10:47:28,888 AntiCompacting [] 

INFO 10:47:28,892 Stream context metadata /var/lib/cassandra/data/ 
Keyspacel/stream/ 

Standard2-2-Index.db:55, 

1 sstables./var/lib/cassandra/data/Keyspacel/stream/Standard2-2-Filter.db:325, 
1 sstables./var/lib/cassandra/data/Keyspacel/stream/Standard2-2-Data.db:239 
DEBUG 10:47:28,893 Adding file /var/lib/cassandra/data/Keyspacel/stream/ 
Standard2-2-Index.db to be streamed. 
DEBUG 10:47:28,893 Adding file /var/lib/cassandra/data/Keyspacel/stream/ 
Standard2-2-Filter.db to be streamed. 
DEBUG 10:47:28,893 Adding file /var/lib/cassandra/data/Keyspacel/stream/ 
Standard2-2-Data.db to be streamed. 
O 10:47:28,895 Sending a stream initiate message to /192.168.1.7 ... 
G 10:47:28,895 attempting to connect to /192.168.1.7 
INFO 10:47:28,895 Waiting for transfer to /192.168.1.7 to complete 

G 
G 

















10:47:29,309 Running on default stage 

10:47:29,310 Received a stream initiate done message 

DEBUG 10:47:29,310 Streaming 55 length file /var/lib/cassandra/data/ 
Keyspacel/stream/ 

Standard2-2-Index.db 

DEBUG 10:47:29,316 Bytes transferred 55 

DEBUG 10:47:29,316 Done streaming /var/lib/cassandra/data/Keyspacel/stream/ 
Standard2-2-Index.db 

DEBUG 10:47:29,331 Running on default stage 











DEBUG 10:47:29,332 Deleting file /var/lib/cassandra/data/Keyspacel/stream/ 
Standard2-2-Index.db after streaming 
55/619 bytes. 
DEBUG 10:47:29,332 Streaming 325 length file /var/lib/cassandra/data/ 
Keyspacel/stream/ 
Standard2-2-Filter.db 
DEBUG 10:47:29,335 Bytes transferred 325 
DEBUG 10:47:29,335 Done streaming /var/lib/cassandra/data/Keyspacel/stream/ 
Standard2-2-Filter.db 
DEBUG 10:47:29,345 Running on default stage 
DEBUG 10:47:29,345 Deleting file /var/lib/cassandra/data/Keyspacel/stream/ 
Standard2-2-Filter.db after streaming 
325/619 bytes. 
DEBUG 10:47:29,345 Streaming 239 length file /var/lib/cassandra/data/Keyspacel/ 
stream/Standard2-2-Data.db 
DEBUG 10:47:29,347 Bytes transferred 239 
DEBUG 10:47:29,347 Done streaming /var/lib/cassandra/data/Keyspacel/stream/ 
Standard2-2-Data.db 
DEBUG 10:47:29,389 Running on default stage 
DEBUG 10:47:29,390 Deleting file /var/lib/cassandra/data/Keyspacel/stream/ 
Standard2-2-Data.db after streaming 
239/619 bytes. 
DEBUG 10:47:29,390 Signalling that streaming is done for /192.168.1.7 
INFO 10:47:29,390 Done with transfer to /192.168.1.7 
DEBUG 10:47:29,391 stream acks all received. 
DEBUG 10:47:29,392 No bootstrapping or leaving nodes -> empty pending ranges 
for Keyspacel 
DEBUG 10:48:59,322 Disseminating load info 
DEBUG 10:49:01,406 Processing response on a callback from 
19199708/192.168.1.7 

INFO 10:49:01,406 New token will be 134439585115453215112331952664863163581 to 
assume load from /192.168.1.7 

INFO 10:49:01,407 re-bootstrapping to new token 
134439585115453215112331952664863163581 

INFO 10:49:01,407 Joining: sleeping 30000 for pending range setup 

INFO 10:49:31,408 Bootstrapping 
DEBUG 10:49:31,408 Beginning bootstrap process 
DEBUG 10:49:31,413 Added /192.168.1.7/Keyspacel as a bootstrap source 
DEBUG 10:49:31,414 Requesting from /192.168.1.7 ranges 
(41654880048427970483049687892424207188,134439585115453215112331952664863163581] 
DEBUG 10:49:32,097 Running on default stage 
DEBUG 10:49:32,098 StreamInitiateVerbeHandler.doVerb STREAM INITIATE 10579 
































我 们 来 更 进一步 看 看 Cassandra 如 何 做 到 负载 均衡 的 。 从 日 志 输 出 中 可 以 看 到 很 多 
事情 。 首 先 ，Cassandra 检查 集群 中 的 可 用 布点 和 它们 的 令 牌 区 间 。 然 后 创建 了 一 个 
1.5 市 点 上 需要 流出 的 数据 库 文 件 列 表 。 因 为 Standara2 列 族 有 数据 ， 所 以 它 将 移 
动 它 的 索引 、 数 据 和 过 滤器 文件 到 其 他 节点 (本 例 中 是 1.7 节点 )。 然 后 1.5 节点 向 
1.7 市 点 发 出 流 初 始 消 息 ， 表 示 自 己 将 要 让 自己 的 数据 流 到 对 方 。 再 后 开始 传输 数 
据 。 一 旦 1.7 节点 确认 收 到 了 数据 ，1.5 节点 上 的 本 地 文件 就 被 删除 了 ， 然 后 服务 器 
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退 服 一 段 时 间 。 紧 接着 ，1.5 节点 立刻 回 到 集群 中 来 ， 通 过 gossip 告知 集群 ， 自 己 
可 以 接收 数据 了 。 分 配 到 新 的 区 间 令 牌 之 后 ，1.5 节点 开始 从 1.7 节点 服务 器 上 分 担 
一 部 分 数据 到 本 节点 上 来 。 


如 果 使 用 ring 参数 运行 Nodetool， 就 可 以 看 到 节点 已 经 分 配 到 了 新 的 区 间 ， 它 们 
都 有 了 大 致 相等 的 数据 量 : 





Address Status Load Range Ring 
134439585115453215112331952664863163581 

192.168.1.7 Up 3.53 KB 41654880048427970483049687892424207188 |<--| 

192.168.1.5 Up 2.95 KB 134439585115453215112331952664863163581 |-->| 





10.6 ” 退 服 节点 


退 服 (decommissioning) 一 个 节点 就 是 将 一 个 节点 从 服务 中 撤 下 来 。 当 调用 Nodetool 
的 decommission 命令 时 ， 实 际 上 是 在 调用 Cassandra 的 StorageService 类 的 


decommission 操作 。 


假设 环 上 有 两 个 市 点 : 





ebenemorpheus$ bin/nodetool -host 192.168.1.5 ring 

Address Status Load Range Ring 
134439585115453215112331952664863163581 

192.168.1.7 Up 4.17 KB 41654880048427970483049687892424207188 |<--| 

192.168.1.5 Up 3.59 KB 134439585115453215112331952664863163581 |-->| 


现在 希望 退 服 1.7 节点 。 可 以 用 decommission 参数 运行 Nodetoo1l， 将 一 个 节点 撤 
出 服务 ， 就 像 这 样 : 
$ bin/nodetool decommission -h 192.168.1.7 


运行 这 个 命令 之 后 ， poi m 段 时 间 。 上 默认 等 待 时 间 是 30 £^, Nodetool 
a 但 服务 器 日 志 还 会 继续 打印 。 在 1.5 市 点 上 一 一 我 们 要 保留 
的 那个 有 节点 ， 可 以 看 到 3 oe a ed 





DEBUG 13:59:00,488 Disseminating load info ... 

DEBUG 13:59:40,010 Node /192.168.1.7 state leaving, token 
41654880048427970483049687892424207188 

DEBUG 13:59:40,022 Pending ranges: 

/192.168.1.5: 
(134439585115453215112331952664863163581,41654880048427970483049687892424207188] 





DEBUG 14:00:00,488 Disseminating load info ... 

DEBUG 14:00:10,184 Running on default stage 

DEBUG 14:00:10,184 StreamInitiateVerbeHandler.doVerb STREAM INITIATE 4084 
DEBUG 14:00:10,187 no data needed from /192.168.1.7 

DEBUG 14:00:10,551 Node /192.168.1.7 state left, token 





41654880048427970483049687892424207188 
DEBUG 14:00:10,552 No bootstrapping or leaving nodes -» empty pending 
ranges for 
Keyspacel 
INFO 14:00:18,049 InetAddress /192.168.1.7 is now dead. 


gossiper 告诉 1.5 市 点 ，1.7 节点 处 于 离开 状态 。 在 这 个 场景 之 下 ， Bd dido 
过 了 ，1.7 节点 am 接 下 来 ，1.5 节点 就 得 到 了 消息 : 1.7 节点 已 经 死 掉 
了 。 如 果 这 时 运行 nodetool -h «ip» ring 命令 ，1.7 节点 就 不 会 出 现在 列表 中 了 。 


同时 ， 在 我 们 正在 退 服 的 节点 的 日 志 里 ， 我 们 会 看 到 这 样 的 输出 : 











INFO 13:37:36,299 InetAddress /192.168.1.5 is now UP 

INFO 13:59:40,929 Leaving: sleeping 30000 for pending range setup 
INFO 14:00:11,286 Leaving: streaming data to other nodes 

INFO 14:00:11,318 Flushing memtables for Keyspacel... 

INFO 14:00:11,318 Performing anticompaction ... 

INFO 14:00:11,333 AntiCompacting [org.apache.cassandra. 


io.SSTableReader(path-'c 
: VvarM ibNcassandraMdataMNKeyspacelNMStandard2-2-Data.db'),org.apache.cassandra.io 
.SSTableReader (path-'c: varMlibNcassandraMdataMKeyspacelMStandard2-1-Data.db')] 








INFO 14:00:11,349 AntiCompacting [] 

INFO 14:00:11,364 AntiCompacting [] 

INFO 14:00:11,411 Stream context metadata 

INFO 14:00:11,427 Sending a stream initiate message to /192.168.1.5 ... 
INFO 14:00:13,455 Shutting down MessageService... 

INFO 14:00:13,455 Shutdown complete (no further commands will be processed) 
INFO 14:00:13,470 Decommissioned 

INFO 14:00:13,470 MessagingService shutting down server thread. 


这 个 节点 开始 发 现 了 1.5 节点 ， 然 后 收 到 了 退 服 命令 。 它 进入 离开 状态 ， 然 后 睡眠 
30 p. 来 确保 有 足够 的 时 间 获取 所 有 必要 的 区 间 信息 。 memtable 从 内 存 刷 写 到 磁 
盘 的 SSTable 之 中 ， 之 后 对 数据 进行 一 次 反 压 紧 操 作 。 然 后 ， 根 据 需 要 发 起 一 次 流 
出 数据 传输 ， 让 数据 流向 1.5 市 点 。 最 后 ， 它 将 自己 关闭 ， 完 成 退 服 。 


如 果 你 在 一 个 不 能 被 退 服 的 节点 调用 退 服 命令 (比如 市 点 还 不 是 环 的 一 部 分 ， 或 者 
是 唯一 的 可 用 节点 )， 会 看 到 一 条 错误 消息 来 解释 情况 。 执行 退 服 命令 的 基本 步骤 是 
这 样 的 。 


(1) 关闭 gossiper， 这 样 就 不 会 收 到 更 多 的 数据 了 。 

(2) 关闭 这 个 节点 的 消息 服务 。 

(3) 关闭 SEDA 阶段 管理 器 ， 因 为 不 会 接受 更 多 的 任务 在 阶段 间 移动 了 。 

(4) 状态 设置 为 “decommissioned”。 

(5) 存储 服务 确定 哪些 可 用 节点 对 于 需要 传输 数据 的 区 间 比 较 合适 。 将 数据 流 到 其 他 
7h 


HA 


(6) 一 旦 接收 节点 确认 数据 传输 成 功 ， 没 有 其 他 数据 要 传输 了 ， 服 务 器 就 可 以 离开 环 了 。 
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| 需要 当心 的 是 ， 数 据 不 会 自动 从 退 服 节点 上 删除 。 如 果 你 决定 在 环 里 重新 
mc 加 入 先前 退 服 的 节点 ， 负 责 一 个 新 的 区 间 ， 就 必须 首先 手工 删除 它 的 数据 。 






































10.7 更 新 节点 


10.7.1 删除 令 牌 
如 果 你 想 删除 一 个 令 牌 ， 可 以 使 用 Nodetool 来 进行 。 


直接 执行 这 样 一 条 命令 ， 其 中 removetoken 命令 的 参数 是 将 要 删除 的 令 牌 : 





$ bin/nodetool -h 127.0.0.1 removetoken 42218023250148343019074760608074740927 


如 果 执 行 成 功 ， 客 户 端 会 无 评论 直接 返回 。 注 意 ， 你 不 能 删除 一 个 节点 自己 的 令 牌 ， 
因为 这 样 会 破坏 节点 的 完整 性 。 你 可 以 连接 到 节点 1 上 ， 用 它 来 删除 环 上 任何 地 方 
的 给 定 令 牌 。 


10.7.2 EZA 

压 紧 闭 值 是 一 个 数值 ， 指 一 次 小 压 紧 进行 之 前 ， 队 列 中 等 待 被 压 紧 的 SSTable 的 数 
量 。 这 个 值 默 认为 4， 最 大 可 以 设 为 32。 这 个 值 不 应 该 太 小 ， 否 则 Cassandra 会 经 
常 因为 过 多 的 压 紧 而 消耗 资源 ， 从 而 在 很 多 时 间 都 无 法 全力 服务 客户 端 。 这 个 值 也 
不 能 太 大 ， 这 样 Cassandra 就 需要 花费 太 高 的 资源 来 进行 很 多 压 紧 工作 ， 从 而 没有 
资源 用 于 响应 客户 端的 请 求 了 。 


SE 3k 8 — ^r 7H ER 2A BE] Hs SS] fL. "T EA f FH Nodetool 的 getcompactionthre- 
shold 命令 : 





eben@morpheus$ bin/nodetool -h 192.168.1.5 getcompactionthreshold 
Current compaction threshold: Min-4, Max-32 


10.7.8 在 一 个 工作 的 集群 中 改变 列 族 


如 果 需 要 ， 可 以 在 一 个 运行 中 的 Cassandra 集群 中 添加 、 删 除 或 重 命名 列 族 。 下 面 
是 操作 的 步骤 。 





(1) 使 用 Nodetool， 运 行 drain 来 清空 commit log, 

(2) 关闭 Cassandra 并 确保 commit log 中 没有 剩余 的 数据 。 

(3) 删除 SSTable 文件 。 这 些 文件 存在 于 数据 目录 中 ， 名 为 <cf>-Data.db、<cf>-Index. 
db 和 <cf>-Filter.db。 找 到 要 改变 的 、 前 缀 为 列 族 名 字 的 文件 。 按 照 对 应 的 命名 方 
式 ， 重 命名 这 些 文件 。 
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10.8 小结 
本 章 中 ， 我 们 看 了 一 些 与 Cassandra 交互 ， 进 行 日 常 维护 任务 的 方法 。 我 们 知道 了 
如 何 获取 统计 信息 ， 如 何 对 不 平衡 的 节点 进行 负载 均衡 ， 如 何 对 数据 库 进 行 快照 以 
备份 数据 ， 如 何 退 服 节 
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性 能 调 优 





本 章 中 ， 我 们 将 学 习 如 何 对 Cassandra 进行 调 优 以 改进 性 能 。 配 置 文件 中 有 很 多 设 
置 可 以 帮助 我 们 做 到 这 点 。 我 们 还 会 介绍 一 些 硬件 选择 与 配置 方面 的 优化 。 有 一 些 
独立 的 设置 ， 你 可 以 在 Cassandra 的 配置 文件 中 修改 它们 。 虽 然 默 认 设置 通常 是 推 
荐 的 ， 但 在 某 些 情况 下 ， 还 是 需要 修改 它们 。 本 章 中 ， 我 们 将 会 看 到 这 些 设置 。 


作为 一 个 通用 的 规则 ， 必 须要 注意 ， 简 单 直接 地 把 一 个 节点 加 入 到 集群 中 并 不 会 改 
善 性 能 。 你 需要 合适 地 分 布 数据 副本 ， 然 后 将 客户 端的 流量 分 配 到 所 有 市 点 上 。 如 
果 不 将 客户 端 请 求 分 布 化 ， 新 的 市 点 只 能 一 直 空 间 着 。 


我 们 还 会 看 到 如 何 使 用 Cassandra 自 带 的 Python 压力 测试 工具 运行 一 个 合理 的 负 
载 ， 来 快速 查看 Cassandra 在 压力 测试 环境 下 的 表现 。 之 后 ， 我 们 可 以 合理 调整 
Cassandra， 确 信 已 经 可 以 在 一 个 实战 环境 中 启动 服务 。 


11.1 数据 存储 


Cassandra 在 处 理 更 新 操作 时 会 写 两 类 文件 : commit log 和 数据 文件 。 要 了 解 如 何 配 
置 它们 ， 需 要 首先 明白 它们 的 不 同 目的 。 


commit log 可 以 看 做 是 短期 存储 。Cassandra 接收 到 更 新 之 后 ， 每 个 写 值 会 立刻 写 
入 commit log， 写 入 是 以 原始 顺序 文件 追加 的 形式 。 如 果 关 闭 了 数据 库 ， 或 是 它 意 
bhiir T, commit log 可 以 保障 数据 不 会 丢失 ， 因 为 下 次 启动 市 点 的 时 候 ，commit 
log 还 会 被 重 放 。 事 实 上 ，commit log 只 有 在 这 个 时 候 才 会 被 读 取 ， 客 户 端 从 来 不 会 
读 取 它 。 但 是 ， 通 常 对 commit log 的 写 入 操作 是 阻塞 写 ， 所 以 它 可 能 会 非常 影响 性 
能 ， 因 为 它 需 要 客户 端 等 待 它 写 完 。 
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数据 文件 是 指 有 序 字 符 串 表 (SSTable) fll commit log 不 同 ， 数 据 是 异步 写 和 人 这 个 
文件 的 。SSTable 在 周期 性 的 主 压 紧 中 进行 归并 ， 从 而 释放 出 空间 。 要 做 到 这 点 ， 
Cassandra 会 归并 键 值 、 合 并 列 ， 并 删除 墓碑 。 





读 操作 可 以 通过 内 存 中 的 缓存 进行 ， 在 这 种 情况 下 不 会 直接 读 取 磁盘 上 的 数据 文件 。 
如 果 给 Cassandra 配置 很 多 GB 的 内 存 ， 那 么 当 行 缓存 和 键 缓存 命中 的 时 候 ， 可 以 
很 大 程度 地 提升 性 能 。 








在 将 所 有 追加 写 人 的 数据 成 功 刷 写 到 特定 的 数据 文件 中 后 ，commit log 是 会 周期 性 
移 除 的 。 因 此 ，commit log 不 会 长 到 接近 数据 文件 的 尺寸 ， 所 以 ， 它 们 不 需要 大 磁 
盘 ， 这 在 硬件 选择 时 需要 考虑 。 例 如 ， 如 果 Cassandra 执行 了 一 次 刷 写 操作 ， 可 以 
在 服务 器 日 志 中 看 到 这 样 的 内 容 : 











INFO 18:26:11,497 Enqueuing flush of Memtable-LocationInfo@26830618 (52 
bytes, 2 operations) 
INFO 18:26:11,497 Writing Memtable-LocationInfo926830618(52 bytes, 2 
operations) 
INFO 18:26:11,732 Completed flushing /var/lib/cassandra/data/system/ 
LocationInfo-2-Data.db 
INFO 18:26:11,732 Discarding obsolete commit log: 

CommitLogSegment (/var/lib/cassandra/commitlog/CommitLog1278894011530.10g) 


然后 ， 如 果 查 看 commit log 的 目录 ， 就 会 发 现 文件 已 经 被 删除 了 。 

默认 情况 下 ，commit log 和 数据 文件 被 存放 在 下 面 的 位 置 ， 
«CommitLogDirectory»/var/lib/cassandra/commitlog«/CommitLogDirectory» 
«DataFileDirectories» 


«DataFileDirectory»/var/lib/cassandra/data«/DataFileDirectory» 
«/DataFileDirectories» 


你 可 以 改变 这 些 值 来 改变 数据 文件 和 commit log 存放 的 位 置 。 如 果 你 希望 ， 可 以 指 
定 多 个 数据 文件 目录 。 


^a 


在 Windows 下 ， 即 使 它们 指向 默认 位 置 ， 也 不 需要 改变 这 些 值 ，Windows 
会 自动 调整 路 径 分 隔 符 ， 并 把 它们 放 在 C\ 下 面 。 当 然 ， 在 一 个 真实 的 环 
境 中 ， 一 般 还 是 应 该 分 别 指定 它们 的 路 径 的 。 




















为 了 测试 ， 你 可 能 找 不 到 要 改变 这 些 位 置 的 理由 。 然 而 ， 实 际 部 署 的 建议 是 ， 将 数 
据 文件 和 commit log 分 别 放 到 不 同 的 硬盘 上 ， 以 使 性 能 最 大 化 。Cassandra 和 很 多 
其 他 数据 库 一 样 ， 特 别 依 赖 于 硬盘 的 速度 和 CPU 的 速度 (最 好 有 4 到 8 个 内 核 ， 来 
更 好 发 挥 Cassandra 的 高 并 发 架构 优势 )。 确 保 QA 和 生产 环境 都 安装 上 你 能 得 到 的 





E 
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最 快 的 硬盘 ， 并 至 少 有 两 块 独立 的 硬盘 ， 以 便 确 保 commit log 文件 和 数据 文件 不 会 
争 抢 1O 时 间 。 而 且 ， 有 多 个 处 理 器 比 有 一 两 个 很 快 的 处 理 器 要 更 重要 。 


11.2 ”回复 超时 


回复 超时 (reply timeout) 设置 的 是 Cassandra 在 等 待 其 他 节点 啊 应 其 请 求 
的 超时 失败 时 间 。 在 关系 型 数据 库 和 消息 系统 中 都 有 这 个 设置 。 这 个 值 由 
RpcTimeoutInMillis 元 素 设置 (4E YAML 中 是 rpc_timeout_in ms). XA 
情况 下 ， 这 个 值 是 5000， 也 就 是 5 秒 钟 。 








11.3 commit log 


你 可 以 设置 在 停止 向 commit log 追加 写 数据 并 创建 新 文件 之 前 ， 允 许 它 长 到 多 大 的 
值 。 这 个 值 类 似 于 Log4J 的 日 志 翻 转 时 间 设 置 。 














这 个 值 通过 CommitLogRotationThresholdInMB 元 素 设 置 (在 YAML 中 是 
commitlog rotation threshold in mb)， 默 认 值 为 128 MB, 











另 一 个 commit log 相关 的 设置 是 sync 操作 ， 由 commitlog sync 元 素 设置 。 这 个 
设置 有 两 个 可 能 的 选项 periodic E batch. periodic 是 默认 值 ， 它 的 含义 是 ， 
服务 器 按照 一 个 特定 的 时 间 间 隔 ， 将 写 操作 持久 化 。 当 服务 器 设置 为 周期 性 持久 化 
写 的 时 候 ， 有 可 能 出 现在 数据 还 没有 从 滞后 写 缓存 中 同步 到 磁盘 上 的 时 候 丢 失 数 据 。 


为 了 确保 Cassandra 集群 的 持久 性 ， 可 能 需要 修改 这 个 设置 。 


如 果 commit log 设置 为 patch， 它 将 会 在 数据 同步 写 入 到 磁盘 上 之 前 一 直 阻 塞 写 操 
作 (Cassandra 在 commit log 完整 同步 到 磁盘 上 之 前 ， 不 会 确认 写 操作 )。 这 显然 会 
对 性 能 造成 负面 影响 。 


你 可 以 把 这 个 设置 属性 从 periodic 改 为 batch， 指 定 Cassandra 必须 在 响应 写 
操作 之 前 将 数据 刷 写 到 硬盘 上 。 改 变 这 个 值 需要 进行 一 些 性 能 考量 ， 因 为 这 做 出 
TERA: 强制 Cassandra 更 迅速 地 写 入 限制 了 它 更 自由 地 管理 资源 。 如 有 果 将 
commitlog sync 设置 为 patch， 就 必须 给 CommitLogSyncBatchWindowInMS 一 
个 合理 的 值 ， 这 里 MS 是 每 次 同步 写 入 的 上 毫秒 数 。 而 且 ， 在 多 布点 集群 中 ， 通 常 没 有 必 
要 这 么 设置 ， 因 为 根据 多 副本 定义 ， 在 其 他 节点 也 得 到 数据 之 前 是 不 会 响应 写 请 求 的 。 

如 果 你 决定 使 用 batcn 模式 ， 需 要 把 commit log 分 到 独立 的 设备 上 来 降低 性 能 影 


响 。 不 论 何 时 ， 将 commit log 和 SSTable (数据 文件 ) 放 到 不 同 的 磁盘 上 都 是 个 好 
主意 ， 即 使 你 没有 选择 batch 模式 。 
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11.4 memtable 


每 个 列 族 都 有 一 个 单独 的 memtable 与 之 相关 联 ， 有 一 些 设置 是 关于 memtable 
处 理 的 。 在 刷 写 到 硬盘 、 成 为 SSTable 之 前 ，memtable 可 以 长 大 到 的 尺寸 是 由 
MemtableSizeInMB 元 素 (在 YAML 中 是 binary memtable throughput in mb) 
设置 的 。 注 意 ， 这 个 值 是 memtable 本 身 在 内 存 中 的 大 小 ， 而 不 是 占用 的 堆 大 小 ， 
为 一 些 列 索引 相关 的 开销 ， 后 者 可 能 会 更 大 。 














你 需要 平衡 设置 这 个 参数 和 MemtableobjectcountInMillions， 这 是 memtable 


被 刷 写 到 硬盘 之 前 ， 在 其 中 可 以 存储 的 列 值 数 量 的 浆 值 。 
一 个 相关 设置 是 memtable throughput in mb。 这 是 一 个 memtable 在 被 刷 写 到 


磁盘 、 成 为 SSTable 之 前 可 以 存储 的 最 大 列 数 。 默 认 值 为 0.3， 大 约 是 333 000 列 。 


你 还 可 以 配置 memtable 在 刷 写 到 硬盘 之 后 ， 可 以 在 内 存 中 保存 多 和 久 。 这 个 值 通过 
memtable flush after mins 元 素 设置 。 当 刷 写 执行 时 ， 它 会 写 入 一 个 刷 写 缓冲 
区 ， 也 可 以 使 用 flush data buffer size in mb 配置 这 个 缓冲 区 的 大 小 。 








另 一 个 用 于 调整 memtable 的 相关 元 素 是 memtable flush writers。 这 个 设置 的 
默认 值 是 1， 它 是 当 memtable 写 入 磁盘 时 需要 使 用 的 线程 数量 。 如 果 有 非常 大 的 
堆 ， 把 这 个 值 调 高 可 以 提高 性 能 ， 因 为 这 些 线程 在 磁盘 IO 时 会 阻塞 住 。 


11.5 并 发 


Cassandra 和 很 多 数据 存储 系统 的 一 大 不 同 ， 就 是 提供 了 比 读 性 能 更 高 的 写 性 能 。 有 
两 个 设置 是 关于 多 少 个 线程 可 以 执行 读 操作 和 写 操 作 的 : concurrent reads 和 
concurrent_writes。 一 般 来 说 ，Cassandra 默认 给 出 的 设置 就 非常 不 错 。 但 你 上 
能 还 是 需要 在 启动 服务 器 之 前 修改 concurrent reads 设置 ， 因 为 concurrent 
reads 设置 在 每 个 处 理 器 核 两 个 线程 的 时 候 是 最 优 的 。 默 认 情 况 下 ， 这 个 设置 是 8， 
假设 服务 器 是 4 核 的 。 如 果 这 正 是 你 的 配置 ， 那 你 刚好 可 以 使 用 它 。 但 如 果 你 有 一 
个 8 核 的 服务 器 ， 就 应 该 把 它 设 置 为 16。 


concurrent writes 设置 的 形式 有 些 不 同 。 它 应 该 设 为 将 会 并 发 访问 到 服务 器 的 
客户 端的 数量 。 如 果 将 Cassandra 作为 一 个 Web 应 用 服务 器 的 后 端 ， 则 可 以 把 这 个 
值 从 默认 的 32 调 到 应 用 服务 器 可 以 用 于 连接 Cassandra 的 线程 数 。 对 于 WebLogic 
之 类 的 Java 应 用 服务 器 来 说 ， 通 常 合理 的 数据 库 连 接 池 不 会 大 于 20 或 30。 不 过 ， 
如 果 你 使 用 了 一 个 多 应 用 服务 器 集群 ， 可 能 还 需要 给 这 个 值 乘 上 一 个 因子 。 
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11.6 缓存 


有 很 多 缓存 相关 的 设置 ， 既 有 Cassandra 的 设置 ， 也 有 操作 系统 级 的 设置 。 缓 存 可 
能 会 占用 相当 大 的 内 存 ， 所 以 需要 根据 使 用 情况 来 小 心地 调整 它们 。 


Cassandra 中 有 两 类 主要 的 缓存 : 行 缓 存 和 键 值 缓存 。 行 缓存 会 缓存 整 行 数据 〈 它 们 
所 有 的 列 ) ， 所 以 它 是 键 缓存 的 超 集 。 如 有 果 你 对 某 个 给 定 的 列 族 使 用 了 行 缓 在， 那么 
你 也 就 不 需要 对 它 使 用 键 值 缓存 了 。 


因而 ， 缓 存 策略 应 该 根据 下 面 几 个 条 件 确 定 。 


。 考虑 查询 ， 使 用 更 适合 查询 方式 的 缓存 类 型 。 
。 考虑 堆 内 存 和 缓存 尺寸 的 比例 ， 不 要 让 缓存 占 满 堆 容量 。 
。 考虑 行 尺 寸 和 键 值 尺 寸 。 通 常 键 值 都 会 比 整 行 内 容 小 很 多 。 


keys_cached 设置 的 是 存储 在 内 存 之 中 的 键 位 置 一 一 不 是 键 值 一 一 的 数量 。 这 个 值 
可 以 指定 一 个 小 数 (0 和 1 之 间 的 一 个 数 ) 或 是 一 个 整数 。 如 果 使 用 了 小 数 ， 是 指 
定 了 一 个 要 缓存 的 键 值 的 百分比 ， 而 如 果 使 用 了 一 个 整数 ， 则 是 指定 将 要 缓存 的 键 
值 位 置 的 绝对 数值 。 


Ña 
i 














keys cached 是 一 个 列 族 的 设置 ， 某 些 列 族 比 其 他 的 列 族 更 常 被 访问 ， 所 
Wa. 以 不 同 的 列 族 可 以 有 不 同 的 键 值 位 置 缓存 数量 。 











这 个 设置 会 消耗 很 多 内 存 ， 但 是 如 果 你 的 位 置 已 经 不 是 热点 了 ， 可 以 考虑 做 个 折 中 。 


disk access mode 的 目的 是 允许 将 文件 映射 到 内 存 ， 这 样 操 作 系 统 可 以 缓存 读 操 
作 ， 这 样 就 可 以 降低 Cassandra 内 部 的 缓存 的 负载 。 这 听 起 来 很 好 ， 不 过 在 实践 中 ， 
disk access mode 是 最 没 用 的 设置 之 一 ， 而 且 目 前 也 无 法 按照 预想 的 那样 工作 。 
这 可 能 会 在 将 来 有 所 改进 ， 不 过 看 起 来 这 个 设置 同样 可 能 被 移 除 。 当 然 可 以 尝试 它 ， 
不 过 你 可 能 不 会 看 到 什么 不 同 。 


你 还 可 以 在 服务 器 启动 时 就 填 入 行 缓 存 。 要 这 么 做 ， 可 以 使 用 preloagd row 
cache 元 素 。 这 个 设置 默认 是 false， 不 过 可 以 把 它 设置 为 true 来 改进 性 能 。 代 
价 是 ， 如 果 要 预 装载 很 多 列 族 的 数据 ， 自 举 的 时 间 可 能 会 更 长 。 


rows cached 设置 指定 了 将 被 缓存 的 行 数 。 默 认 情 况 下 ， 这 个 值 是 0， 意味 着 不 使 
用 行 缓 存 ， 使 用 行 缓存 是 一 个 好 主意 。 这 里 ， 如 果 使 用 一 个 小 数 ， 那 么 就 是 指定 全 
部 数据 要 缓存 的 百分比 ， 而 如 果 是 个 整数 ， 则 就 是 要 缓存 位 置 的 行 数 的 绝对 数值 。 
不 过 ， 你 应 该 谨慎 使 用 这 个 设置 ， 因 为 这 个 设置 很 容易 失去 控制 。 如 果 列 族 的 读 请 
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求 大 于 写 请 求 ， 那 么 把 它 设置 得 很 高 将 会 不 必要 地 消耗 太 多 的 服务 器 资源 。 而 如 果 
列 族 有 一 个 很 低 的 读 写 比例 ， 但 有 很 大 的 行 (包含 上 百 列 )， 那 么 在 把 这 个 值 设 得 很 
高 之 前 需要 好 好 计算 一 下 。 除 非 某 些 行 会 有 很 高 的 命中 率 ， 而 其 他 行 不 太 会 被 访问 
到 ， 人 否则 你 不 会 从 这 里 得 到 很 大 性 能 提升 。 


11.7 缓冲 区 尺寸 


缓冲 区 尺寸 代表 执行 某 些 操作 时 分 配 的 内 存 大 小 。 下 面 是 这 些 设 置 的 一 个 概览 : 





* flush data buffer size in mb 
这 个 值 黑 认 设 为 32MB ， 这 是 用 于 将 memtable 刷 写 到 磁盘 上 的 缓冲 区 尺寸 。 


* flush index buffer size in mb 
这 个 值 默认 设 为 8SMB 。 如 果 每 个 键 值 只 定义 了 很 少 的 列 ， 可 以 考虑 增加 索引 组 
存 的 尺寸 。 相 反 ， 如 果 每 行 都 有 很 多 列 ， 那 么 就 应 该 减 小 这 个 缓冲 区 的 尺寸 。 





* sliced buffer size in kb 
依赖 于 查询 的 变化 程度 有 多 高 ， 这 个 设置 可 能 没有 太 大 用 处 。 它 允许 你 制定 一 个 
KB 级 的 值 ， 指 定 当 执 行 切 片 查 询 时 对 邻近 列 进行 的 缓存 。 如 果菜 个 切片 查询 的 
执行 概率 远 高 于 其 他 查询 ， 或 者 数据 分 步 中 列 族 的 列 数量 比较 具有 一 臻 性， 那么 
这 个 设置 在 读 查 询 时 可 能 会 有 一 些 用 。 不 过 记 住 ， 这 个 设置 是 全 局 的 。 


11.8 使 用 Python 压力 测试 


Cassandra 附带 了 一 个 称 为 py_stress 的 受 欢迎 的 工具 ， 可 以 用 于 对 Cassandra 进 
行 压力 测试 。 要 运行 py_stress， 可 以 进入 <cassandra-home>/contrib 目录 。 你 需 
要 先 阅读 README.txt 文件 ， 这 里 面 列 出 了 要 运行 这 个 工具 需要 满足 的 先决 条 件 。 











在 运行 这 个 工具 之 前 还 有 几 个 工作 要 做 。 首 先 确 定 配 置 中 还 有 默认 keyspace 
(Keyspacei) 并 加 载 了 它 ， 因 为 这 个 工具 会 执行 在 默认 的 列 族 定 义 之 上 。 


之 后 ， 你 需要 生成 Python Thrift 接口 ， 这 可 能 还 需要 几 步 操作 。 


11.8.1 生成 Python Thrift 接 口 

在 运行 压力 工具 之 前 ， 我 们 需要 确定 已 经 有 Python 的 Thrift 接口 可 用 了 (因为 这 是 
一 个 Python 脚本 )。 如 果 执 行 命令 时 出 现下 面 的 一 行 错误 ， 就 说 明 还 没有 生成 接口 ， 
或 是 生成 的 不 正确 : 
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No module named thrift.transport 


还 要 确定 已 经 在 系统 中 安装 Python 了 。 要 验证 是 否 安装 了 Python， 打 开 终 端 窗口 ， 
键入 $python， 你 应 该 可 以 看 到 类 似 下 面 的 输出 : 





ebenemorpheus$ python 

Python 2.6.5 (r265:79063, Apr 16 2010, 13:09:56) 

[GCC 4.4.3] on linux2 

Type "help", "copyright", "credits" or "license" for more information 


要 确保 Python 版 本 是 2.6 或 者 更 高 ， 这 样 你 才能 得 到 它们 提供 的 最 新 的 多 线程 能 
力 ， 这 对 于 压力 测试 来 说 非常 方便 。 


获得 Thrift 
要 获得 Thrift, M http://incubator.apache.org/thrift 下 载 ， 你 将 得 到 一 个 类 似 thrift- 
0.2.0-incubating.tar.gz 的 文件 。 将 它 解压 ， 然 后 运行 如 下 Linux 命令 来 建立 依赖 关 
A 

$ sudo apt-get install -y libboost-dev libevent-dev python-dev automake 


pkg-config 
libtool flex bison 


如 果 系 统 中 没有 安装 好 C++ Boost Æ, Thrift 可 能 无 法 正常 工作 。 可 以 从 http:// 
www.boost.org 下 载 Boost。 之 后 ， 在 Boost 目录 中 ， 运 行 如 下 命令 : 








$ ./bootstrap.sh 
$ ./bjam 


这 将 编译 和 安装 Boost。 现 在 ， 要 编译 Thrift， 可 以 以 root 权限 在 Thrift 目录 中 运行 
如 下 一 组 命令 : 





$ ./bootstrap.sh 

$ ./configure 

$ ./make 

$ ./make install 

$ cd lib/py 

$ ./make 

现在 运行 命令 Swhich thrift， 就 会 告诉 你 Thrift 安装 到 的 路 径 了 。 在 我 的 系统 里 
是 /usr/local/bin/thrift, 











译注 1， 这 个 命令 仅 适 用 于 使 用 APT 包 管 理 系统 的 Linux 发 布 版 ， 如 Debian 和 Ubuntu 等 ， 其 他 发 布 版 需要 
使 用 相应 的 包 管理 工具 。 
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在 Ubuntu Linux 中 ， 在 安装 Thrift 时 可 以 看 到 这 样 一 个 错误 “autoscan: 
uS not found", yum 或 者 apt-get 中 都 没有 一 个 名 为 autoscan 的 包 。 要 获得 
Thrift 自 举 需要 的 autoscan， 可 以 运行 如 下 命令 : 

$ sudo apt-get install automake 

可 以 通过 $which autoscan 来 查看 是 否 安装 了 autoscan 了 ， 如 果 返 回 值 
是 空 ， 就 是 还 没有 安装 它 。 











LL 




















如 果 Thrift 已 正确 安装 了 ， 应 该 可 以 运行 Thrift 程序 并 看 到 帮助 输出 : 


$ thrift -version 
Thrift version 0.2.0-exported 


把 site-package 目录 放 在 Python 路 径 中 : 

$ export PYTHONPATH-/usr/lib/python2.6/site-packages/ 
现在 可 以 进入 «cassandra-home» 目 孙 了 。 运 行 下 面 的 命令 来 为 Python 生成 Thrift 
接口 : 

$ ant gen-thrift-py 
你 应 该 可 以 得 到 一 个 编译 成 功 的 消息 。 现 在 ，<cassandra-home>/interfaces/thrift/ 
gen-py 目录 下 就 有 了 Cassandra 的 Thrift 为 Python 生成 的 接口 。 将 这 个 目录 复制 到 
<cassandra-home>/contrib/py_stress。 现 在 只 要 确定 Cassandra 服务 器 已 经 启动 ， 就 
可 以 运行 Python 压力 测试 了 。 








11.8.2 ”运行 Python 压力 测试 
现在 一 切 设置 妥当 ， 可 以 运行 压力 测试 了 。 进 入 «cassandra-home»/contrib/py. stress 
目录 。 在 终端 中 ， 输 入 stress.py 对 本 机 运行 测试 。 


如 果 看 到 的 消息 表示 压力 测试 无 法 连接 1ocalhost:9160， 那 你 有 几 种 选择 。 首 
先 ， 确 定 Cassandra 确实 启动 了 ， 并 且 在 监听 这 个 地 址 和 端口 。 如 果 配 置 Cassandra 
为 监听 IP 或 主机 名 ， 而 非 localhost， 就 需要 改动 脚本 ， 让 它 指 向 服务 器 ， 或 者 修改 
服务 器 的 配置 来 监听 localhost， 或 者 可 能 是 最 好 的 方法 ， 通 过 传送 -a 参数 来 告诉 
脚本 连接 哪个 服务 器 。 让 我 们 开始 吧 : 








$ stress.py -d 192.168.1.5 


sy 


ut^ 你 可 以 运行 stress.py -h 来 查看 压力 测试 脚本 的 使 用 方法 。 
P 4 
uS 
(i 








e 
2S, 








这 个 测试 将 会 插入 一 百 万 个 值 ， 然 后 停止 。 在 一 个 装备 了 Intel i7 处 理 器 (E10 8 核 





^ E- 
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的 处 理 器 )、4 GB 内 存 ， 同 时 运行 了 很 多 其 他 进程 的 普通 工作 站 上 ， 我 运行 了 这 个 
测试 。 这 里 是 我 的 输出 : 


eben@morpheus$ ./stress.py -d 192.168.1.5 -o insert 
total,interval op rate,avg latency,elapsed time 
196499,19649,0.0024959407711,10 
370589,17409,0.00282591440216,20 
510076,13948,0.00295883878841,30 
640813,13073,0.00438663874102,40 
798070,15725,0.00312562838215,50 
950489,15241,0.0029109908417,60 
1000000,4951,0.00444872583334,70 


我 来 解释 一 下 。 我 们 做 的 事情 是 将 一 百 万 个 值 插入 到 一 个 未 经 调 优 的 Cassandra 服 
务 器 上 ， 用 时 大 约 70 秒 。 可 以 看 到 ， 前 10 秒 插入 了 196 699 个 随机 生成 的 值 。 平 
均 操 作 时 延 时 0.0025 秒 ， 即 2.5 毫秒 。 但 这 是 使 用 默认 配置 的 ， 并 且 在 启动 测试 之 
前 的 Cassandra 服务 器 中 ， 已 经 有 了 大 约 1GB 的 数据 。 我 们 提供 更 多 的 线程 ， 来 看 
一 下 是 不 是 能 得 到 一 些 性 能 改进 : 

eben@morpheus$ ./stress.py -d 192.168.1.5 -o insert -t 10 

total,interval op rate,avg latency,elapsed time 

219217,21921,0.000410911544945,10 

427199,20798,0.000430060066223,20 

629062,20186,0.000443717396772,30 


832964,20390,0.000437958271074,40 
1000000,16703,0.000463042383339,50 


这 里 ， 使 用 了 -tt 参数， 指定 一 次 使 用 10 个 线程 。 这 里 显示 ， 在 50 秒 钟 内 插入 了 
一 百 万 条 记录 ， 大 约 每 条 写 操作 2 毫秒 时 延 。 这 是 使 用 的 一 个 完全 未 经 调 优 并 已 经 
包含 大 约 1.5 GB 数据 的 数据 库 。 


你 应 该 多 次 运行 测试 来 得 到 根据 硬件 设置 最 合适 的 线程 数 。 根 据 处 理 器 核 数 ， 如 果 
使 用 过 高 的 线程 数 ， 将 会 得 到 更 差 而 不 是 更 好 的 性 能 ， 因 为 处 理 器 会 花费 更 多 的 时 
间 用 于 管理 线程 ， 而 不 是 处 理工 作 。 你 应 该 让 线程 数 和 处 理 器 核 数 基本 匹配 来 得 到 
一 个 合理 的 测试 结果 。 


现在 已 经 把 数据 放 入 到 数据 库 中 了 ， 让 我 们 使 用 测试 工具 来 读 取 一 些 值 : 


$ ./stress.py -d 192.168.1.5 -o read 
total,interval op rate,avg latency,elapsed time 
103960,10396,0.00478858081549,10 
225999,12203,0.00406984714627,20 
355129,12913,0.00384438665076,30 
485728,13059,0.00379976526221,40 
617036,13130,0.00378045491559,50 
749154,13211,0.00375620621777,60 
880605,13145,0.00377542658007,70 
1000000,11939,0.00374060139004,80 
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"ILE SI, Cassandra 的 读 速度 不 像 写 速度 那么 快 ， 花 费 了 大 约 80 秒 才 读 出 一 百 万 
条 记录 。 记 住 ， 这 是 未 经 调 优 、 默 认 设置 在 单线 程 上 ， 而 且 运 行 了 其 他 程序 的 普通 
工作 站 上 运行 的 测试 ， 而 且 数 据 库 里 已 经 在 有 2 GB 的 数据 。 不 过 ， 这 是 一 个 不 错 
的 工具 ， 帮 你 针对 自己 的 环境 进行 性 能 调 优 而 且 能 大 致 了 解 集群 性 能 。 


11.9 局 动 和 JVM 设 置 


Cassandra 人 允许 你 配置 很 多 关于 如 何 启动 、Java 需要 分 配 多 少 内 存 之 类 的 选项 。 在 本 
节 中 ， 我 们 来 看 如 何 调 优 启动 参数 。 


如 果 使 用 Windows， 则 启动 脚本 是 cassandra.bat; 而 如 果 使 用 Linux， 则 应 该 是 
cassandra.sh。 可 以 直接 运行 这 个 文件 来 启动 服务 器 ， 这 里 面 设置 了 很 多 默认 值 。 不 
ib, Æ bin 目录 里 还 有 另 一 个 文件 允许 我 们 配置 各 种 关于 Cassandra 启动 的 设置 。 这 
个 文件 称 为 cassandra.in.sh， 里 面包 含 了 很 多 选项 ， 包 括 JVM 设置 等 ， 把 设置 放 到 
一 个 单独 的 文件 中 可 以 让 升级 维护 更 加 方便 。 


JVM 调 优 
为 了 得 到 更 好 的 性 能 ， 可 以 对 传 给 JVM 的 启动 参数 进行 调 优 。 关 键 的 JVM 选项 已 经 


包含 在 cassandra.in.sh 文件 中 了 ， 对 它们 进行 调 优 的 指南 如 表 11-1 所 示 。 如 果 要 修改 
这 些 值 ， 只 要 在 文本 编辑 器 中 打开 并 修改 这 些 值 ， 然 后 重新 启动 Cassandra 就 可 以 了 。 


表 11-1 Java 性 能 调 优选 项 




















Java 选 项 设置 指南 
最 大 与 最 小 堆 尺寸 这 两 个 设置 分 别 默认 为 256 MB 和 1 GB。 要 调 优 这 个 设置 ， 可 以 把 它们 
设置 得 更 高 ， 并 设置 为 一 样 的 值 (参考 后 面 的 提示 ) 
断言 (assertion) 默认 情况 下 ,JVM 使 用 -ea 开关 打开 了 断言 。 把 -ea 改 为 -da (关闭 断言 ) 
可 以 提升 性 能 
存活 比例 (survivor ratio) Java 对 分 成 了 两 块 对 象 区 域 : 年 轻 的 和 年 老 的 。 年 轻 空间 中 ， 一 部 分 











用 于 新 对 象 分 配 ( 称 为 “伊甸园 ”(eden space))， 一 部 分 用 于 存放 还 在 
使 用 的 新 对 象 。 年 老 对 象 是 那些 经 历 过 几 次 垃圾 回收 仍然 被 引用 的 对 象 。 
存活 比例 是 年 轻 代 的 堆 空 间 里 ，eden space 对 survivor space 的 比例 。 如 
果 应 用 中 会 创建 很 多 新 对 象 ， 但 生存 周期 较 短 ， 就 可 以 把 这 个 值 设 高 一 
些 。 反 之 ， 如 果 应 用 中 大 部 分 都 是 长 期 存活 的 对 象 ， 就 应 该 把 这 个 值 设 
低 一 些 。Cassandra 这 个 设置 的 默认 值 为 8， 也 就 是 说 ，eden 与 survivor 
的 空间 比例 是 1:8 (每 个 survivor 空间 的 尺寸 将 是 eden 的 1/8)。 这 个 比 
例 相 当 低 ， 因 为 memtable 里 的 对 象 的 生存 时 间 都 很 长 。 这 个 设置 可 以 和 
MaxTenuringThreshold 一 起 调整 

MaxTenuringThreshold 每 个 Java 对 象 的 标题 处 都 有 一 个 年 龄 域 ， 表 示 它 在 年 轻 代 里 被 复制 的 
次 数 。 它 们 每 经 历 一 次 年 轻 代 的 垃圾 回收 就 会 复制 一 次 ， 而 这 个 复制 是 有 
开销 的 。 因 为 长 期 存在 的 对 象 可 能 会 被 复制 很 多 次 ， 调 试 这 个 值 可 以 改进 
性 能 。 默 认 情 况 下 ，Cassandra 设置 这 个 值 为 1。 可 以 把 它 设置 为 0， 这 样 
会 立刻 把 存活 过 一 次 的 年 轻 代 GC 的 对 象 放 入 年 老 代 
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Java 选 项 设置 指南 
UseConcMarkSweepGC 这 个 选项 指示 JVM 的 垃圾 收集 (garbage collection, GC) 策略 ， 特 别 地 ， 

它 启 动 了 并 发 标记 算法 。 这 个 设置 会 占用 更 多 的 RAM 和 更 多 的 CPU 的 资 
源 ， 在 程序 运行 的 时 候 进 行 更 频繁 的 GC， 以 保证 GC 造成 的 中 断 时 间 最 
小 。 使 用 这 个 策略 ， 应 该 将 堆 的 最 小 值 和 最 大 值 设 置 为 相同 值 ， 这 样 防止 
JVM 花 费 很 多 时 间 来 增长 堆 的 尺寸 。 也 可 以 使 用 -XX:+UseParallelGC， 这 
可 以 利用 多 处 理 器 机 器 的 资源 。 这 样 能 有 更 好 的 峰值 性 能 ， 但 会 有 偶尔 的 
停顿 。 不 要 对 Cassandra 使 用 Serial GC 


















































在 include 主 配 置 文件 中 的 主要 参数 包装 了 Java 的 设置 。 比 如 ， 默 认 设置 最 大 Java 
堆 内 存 为 1GB。 如 果 你 有 一 个 拥有 更 多 内 存 的 机 器 ， 可 以 调整 这 个 设置 。 可 以 设置 
相同 的 -Xmx 和 -Xms 值 来 防止 Java 管理 堆 增 长 带 来 的 开销 。 


^a 




















32 位 JVM 堆 尺 寸 的 理论 最 大 值 是 4 GB。 然 而 ， 不 要 简单 地 将 JVM 设置 
到 可 用 的 全 部 4 GB 内 存 。 这 里 包含 了 很 多 因素 ， 比 如 交换 空间 和 内 存 碎 
片 。 如 果 没 有 可 用 的 交换 空间 ， 简 单 使 用 -Xmx 来 增加 堆 尺 寸 不 会 获得 性 
能 收益 。 一 般 情 况 下 ， 在 32 位 Windows 下 的 JVM 可 以 获得 大 约 1.6GB 
的 可 用 堆 空 间 ， 而 在 Solaris 下 可 以 接近 2GB。 在 64 位 系统 中 使 用 64 
位 JVM 可 以 得 到 更 多 的 空间 。 可 以 从 http://java.sun.com/docs/hotspot/ 
HotSpotFAQ.html 获得 更 多 信息 。 


调试 这 些 设置 可 以 让 压力 测试 程序 表现 更 好 。 比 如 ， 我 的 机 器 使 用 如 下 设置 可 以 比 
默认 设置 提高 15% 的 性 能 : 
JVM OPTS=" N 
-da N 
-Xms1024M \ 
-Xmx1024M \ 
-XX:4UseParallelGC \ 
-XX:«CMSParallelRemarkEnabled \ 
-XX:SurvivorRatio-4 \ 
-XX:MaxTenuringThreshold-0 


在 进行 性 能 调 优 的 时 候 ， 一 个 好 的 方法 是 先 只 设置 最 大 和 最 小 堆 空间 ， 而 不 设置 其 
他 值 。 只 有 在 实际 使 用 环境 下 或 某 些 性 能 评分 系统 中 ， 使 用 堆 分 析 工 具 ， 并 观察 特 
定 应 用 行为 的 情况 下 ， 才 能 进入 高 级 JVM 设置 。 如 果 你 调整 了 JVM 参数 ， 看 到 在 
使 用 负载 测试 工具 或 其 他 类 似 contrib 中 的 Python 性 能 测试 工具 时 取得 了 好 成 绩 ， 
不 要 过 于 兴奋 ， 你 需要 在 真实 世界 中 测试 ， 不 要 简单 复制 这 些 设置 。 





















































对 于 Java 6 性 能 调 优 (Java 6 和 之 前 版 本 的 操作 有 些 不 同 )， 可 以 参考 


http://java.sun.com/javase/technologies/hotspot/gc/gc_tuning_6.html? 











译注 2: 译 者 曾 将 此 文 译 为 中 文 : http://wangxu.me/blog/p/209， 供 参考 。 
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通常 ， 如 果 你 遇 到 无 可 用 内 存 的 错误 ， 可 能 需要 进行 堆 来 转 储 它 的 状态 。 如 果 内 存 
第 误 问 题解 除 ， 这 是 一 个 很 好 的 方法 。 你 还 可 以 通过 打印 垃圾 回收 的 细节 来 了 解 问 
题 。 此 外 ， 如 果 Cassandra 中 有 很 多 数据 ， 而 且 垃 圾 回收 导致 了 很 长 的 停顿 ， 可 以 
尝试 在 堆 中 内 存 不 太 满 时 就 开始 运行 垃圾 回收 。 所 有 这 些 参数 如 下 所 示 : 








-XX:CMSInitiatingOccupancyFraction-88 \ 
-XX:«HeapDumpOnOutOfMemoryError \ 
-XX:«PrintGCDetails -XX:«PrintGCTimeStamps -verbose:gc V 


11.10 小结 


在 本 章 中 ， 我 们 看 了 Cassandra 中 可 用 的 有 助 性 能 调 优 的 设置 ， 包 括 缓存 设置 、 内 
存 设置 和 硬件 考量 。 我 们 还 设置 并 使 用 了 Python 压力 测试 工具 ， 写 入 然后 读 出 了 
一 百 万 行 数据 。 

如 果 你 对 Linux 系统 不 太 熟 悉 ， 又 希望 在 Linux 上 运行 Cassandra (这 是 推荐 的 方 
式 )， 可 以 参考 Jonathan Ellis 的 博客 文章 ， 其 中 介绍 了 很 多 Linux 性 能 监控 工具 ， 
可 以 帮 你 了 解 底层 平台 的 性 能 ， 这 样 你 可 以 在 合适 的 地 方 解 决 问题 。 这 篇 文章 可 以 
在 http://spyced.blogspot.com/2010/01/linux-performance-basics.html 找到 。 





终极 的 性 能 提升 手段 就 是 在 能 负担 得 起 的 范围 内 ， 配 置 很 多 内 存 以 及 尽量 多 的 CPU 
核 。 
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第 12 章 


集成 Hadoop 





Jeremy Hanna 


随 着 越 来 越 多 的 公司 和 组 织 开 始 采纳 Cassandra 这 类 技术 ， 他 们 也 开始 寻找 用 于 对 
数据 进行 分 析 与 查询 的 工具 。Cassandra 内 建 的 查询 方式 配合 着 其 上 的 应 用 层 ， 提 供 
了 相当 丰富 的 查询 手段 。 不 过 在 软件 业 中 有 同样 适合 和 Cassandra 一 起 工作 的 分 步 
式 分 析 工 具 。 


Hadoop 看 起 来 就 是 开源 海量 数据 处 理 框 架 的 不 二 之 选 。 其 中 有 开源 的 MapReduce 
实现 ， 也 有 架构 其 上 的 高 级 查询 引擎 ， 如 Pig 和 Hive。 感 谢 Cassandra 和 Hadoop 团 
队 成 员 们 的 努力 ， 目 前 Cassandra 已 经 在 与 Hadoop 及 其 分 析 工 具 的 集成 方面 有 了 显 
著 的 进展 。 


在 本 章 中 我 们 将 探讨 如 何 让 Cassandra 和 Hadoop 共同 工作 。 首 先 ， 我 们 简 述 一 
下 Apache Hadoop 项 目的 简 史 ， 然 后 介绍 如 何 为 存储 在 Cassandra 之 中 的 数据 写 
MapReduce 程序 。 之 后 ， 我 们 将 探讨 与 Hadoop 之 上 的 高 级 查询 工具 的 集成 : Pig 和 
Hive。 了 解 了 这 些 工 具 之 后 ， 我 们 还 会 介绍 如 何 配置 Cassandra 集群 ， 让 这 些 分 析 
可 以 分 布 式 进行 。 最 后 ， 我 们 会 分 享 一 些 使 用 Cassandra 和 Hadoop 来 共同 解决 现实 
世界 问题 的 案例 。 

















12.1 何 为 Hadoop 


如 果 你 已 经 很 熟悉 Hadoop 了 ， 完 全 可 以 跳 过 本 节 。Hadoop (http://hadoop.apache. 
org) 是 一 组 用 于 分 布 式 处 理 大 量 数据 的 开源 项 目 。 其 中 的 Hadoop 分 布 式 文件 系统 
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(HDFS) 和 MapReduce 子 项 目 是 Google GFS 和 MapReduce 的 开源 实现 。 


Google 发 现 ， 很 多 内 部 项 目 组 都 在 实现 类 似 的 功能 ， 用 以 分 布 式 解 决 问 题 。 他 们 
看 到 ， 很 多 分 布 式 数据 处 理 操作 都 可 以 分 解 为 两 个 阶段 : map 阶段 和 reduce 阶段 。 
map 函数 对 原始 数据 进行 操作 ， 生 成 中 间 值 。reduce 对 这 些 中 间 值 进行 某 种 处 理 ， 
生成 最 终 的 MapReduce 计算 结果 。 通 过 对 公共 框架 进行 标准 化 ， 他 们 可 以 创建 更 多 
的 问题 解决 方案 ， 而 不 是 做 换 汤 不 换 药 的 无 用 功 。 





Doug Cutting 决定 写 一 个 开源 应 用 ， 基 于 Google 文件 系统 (http://labs.google.com/ 
papers/gfs.html) 和 MapReduce (http://labs.google.com/papers/mapreduce.html), Hadoop 
就 此 诞生 。 以 此 为 起 点 ，Hadoop 迅速 发 展 ， 成 为 了 一 系列 处 理 海量 数据 问题 的 
工具 。 如 今 ，Hadoop 得 到 了 非常 广泛 的 应 用 ， 使 用 者 包括 Yahoo!, Facebook, 
LinkedIn, Twitter, IBM, Rackspace 以 及 很 多 其 他 公司 。 这 是 一 个 充满 生机 的 团队 
和 一 个 成 长 中 的 生态 系统 。 





Cassandra 内 建 了 对 Hadoop MapReduce 的 支持 (http: //hadoop.apache.org/mapreduce)。 


12.2 使 用 MapReduce 


本 节 详 述 如 何 使 用 Java 语言 对 存储 在 Cassandra 中 的 数据 写 一 个 简单 的 MapReduce 
程序 。 我 们 还 会 简单 介绍 如 何 将 输出 数据 写 入 到 Cassandra， 并 讨论 正在 开发 的 工 
TE: 使 用 Cassandra 和 Hadoop Streaming 来 支持 Java 之 外 的 语言 。 








本 节 中 给 出 的 字数 统计 (word count) 例子 可 以 在 Cassandra 源 代码 的 
p^ . contrib 部 分 找到 。 这 个 例子 可 以 按照 本 节 的 介绍 编译 运行 。 最 好 使 用 源 代 
码 包 中 的 版 本 来 运行 ， 因 为 当前 的 版 本 相对 于 本 书 可 能 又 有 一 些 改进 了 。 
不 过 ， 基 本 原理 是 一 样 的 。 








为 方便 起 见 ， 字 数 统计 MapReduce 程序 会 运行 在 一 个 Cassandra 本 地 节点 。 关 于 如 
何 配 置 Cassandra 和 Hadoop， 更 分 布 式 地 运行 MapReduce, ASZ 12.5 $. 


Cassandra Hadoop 源 码 包 


Cassandra 有 一 个 用 于 与 Hadoop 集成 的 Java 源码 包 , 称 为 org .apache .cassandra. 
hadoop， 其 中 包括 如 下 内 容 。 





* ColumnFamilyInputFormat 
我 们 将 主要 用 这 个 类 来 让 Hadoop 从 Cassandra 交互 读 取 数 据 。 它 扩展 了 Hadoop 
的 InputFormat 抽象 类 。 
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* ConfigHelper 
一 个 用 于 配置 Cassandra 相关 信息 的 辅助 类 ， 比 如 服务 器 节点 位 置 、 端 口 以 及 特 


定 MapReduce 任务 相关 的 信息 。 

* ColumnFamilySplit 
这 个 类 扩展 了 Hadoop 的 InputSplit 抽象 类 ， 对 Cassandra 数据 进行 分 解 。 它 
还 向 Hadoop 提供 数据 的 位 置信 息 ， 这 样 可 以 把 任务 调度 到 存储 数据 的 节点 上 。 





* ColumnFamilyRecordReader 


从 Cassandra 读 取 单条 记录 的 层 。 它 扩展 了 Hadoop HJ RecordReader 抽象 类 。 


pu» 





此 外 ， 在 Hadoop 包 里 ， 还 有 一 些 将 数据 输出 到 Cassandra 的 相似 的 类 ， 但 是 在 本 了 
写作 的 时 候 ， 这 些 类 还 没有 最 终 完成 。 


1—= f= m y i * 
12.8 ”运行 字数 统计 例子 
字数 统计 是 在 MapReduce 论文 中 给 出 的 一 个 例子 ， 是 很 多 初学 者 学 习 这 个 框架 的 起 
点 。 它 读 入 一 个 文本 正文 ， 统 计 每 个 不 同 的 词 的 出 现 次 数 。 这 里 我 们 给 出 一 些 代码 ， 
来 对 存储 在 Cassandra 里 的 数据 进行 字数 统计 。 在 Cassandra 的 源码 包 里 也 包含 一 份 
可 以 运行 的 字数 统计 的 例子 。 
首先 ， 我 们 需要 一 个 Mapper 类 ， 如 例 12-1 所 示 。 
例 12-1: TokenizerMapper.java 类 


public static class TokenizerMapper extends Mapper«byte[]l, 
SortedMap«byte[], IColumn», Text, IntWritable» { 











private final static IntWritable one = new IntWritable (1); 
private Text word - new Text(); 
private String columnName; 


public void map(byte[] key, SortedMap«byte[], IColumn» columns, Context 
context) 
throws IOException, InterruptedException ( 


IColumn column = columns.get(columnName.getBytes()); 
String value - new String(column.value()); 
StringTokenizer itr = new StringTokenizer (value); 


while (itr.hasMoreTokens ()) { 
word.set(itr.nextToken()); 
context.write(word, one); 


} 
} 


protected void setup(Context context) 
throws IOException, InterruptedException ( 
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this.columnName - context.getConfiguration().get("column name"); 


} 
} 
熟悉 MapReduce 程序 的 读者 会 发 现 ， 这 个 mapper 看 起 来 十 分 有 眼熟。 在 这 里 ， 
mapper 的 输入 是 从 Cassandra 读 取 的 行 键 值 和 相关 的 行 值 。 行 值 在 Cassandra 世界 
里 直接 对 应 为 包含 列 信 息 的 映射 。 此 外 ， 对 于 字数 统计 代码 来 说 ， 我 们 覆盖 了 setup 
方法 来 设置 我 们 要 找 的 列 名 字 。 其 余 的 mapper 代码 就 是 普通 的 word count 实现 。 


Aa 





当 mapper 迭代 超级 列 时 ， 每 个 IColumn 都 需要 类 型 转换 为 superColumn, 
Bop] nk FI E 





接 下 来 我 们 看 一 下 字数 统计 程序 的 Reducer 的 实现 ， 如 例 12-2 所 示 。 


例 12-2: Reducer 的 实现 


public static class IntSumReducer extends 
Reducer«Text, IntWritable, Text, IntWritable» ( 





private IntWritable result - new IntWritable(); 
public void reduce (Text key, Iterable«IntWritable» values, Context 
context) 
throws IOException, InterruptedException { 


int sum = 0; 
for (IntWritable val : values) ( 
sum «- val.get(); 
} 
result.set(sum); 
context.write(key, result); 
} 
} 


在 这 个 reducer 实现 中 ， 没 有 什么 奇怪 的 ， 没 有 Cassandra 特有 的 东西 。 


最 后 看 看 运行 MapReduce 程序 的 类 ， 如 例 12-3 所 示 。 





例 12-3: WordCount 类 运行 这 个 MapReduce 程序 


public class WordCount extends Configured implements Tool { 





public int run(String[] args) throws Exception { 
Job job = new Job(getConf(), "wordcount"); 
job.setJarByClass (WordCount.class); 
job.setMapperClass (TokenizerMapper.class); 
job.setCombinerClass (IntSumReducer.class); 
job.setReducerClass (IntSumReducer.class); 
job.setOutputKeyClass (Text.class); 
job.setOutputValueClass (IntWritable.class); 
job.setInputFormatClass (ColumnFamilyInputFormat.class); 
FileOutputFormat.setOutputPath(job, new Path("/tmp/word count")); 
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ConfigHelper.setThriftContact(job.getConfiguration(), "localhost", 9160); 
ConfigHelper.setInputColumnFamily( 
job.getConfiguration(), "Keyspacel", "Standard1"); 


SlicePredicate predicate - new SlicePredicate().setColumn names( 
Arrays.asList(columnName.getBytes())); 


ConfigHelper.setInputSlicePredicate(job.getConfiguration(), predicate); 
job.waitForCompletion(true); 


return 0; 


} 
} 
关于 这 个 和 一 般 样板 类 字数 统计 不 完全 相同 的 wordcount 类 ， 有 些 事情 还 是 值得 一 
提 的 。 我 们 需要 设置 InputFormat 为 Cassandra 的 ColumnFamilyInputFormat, 
以 及 制定 mapper 要 查找 的 列 名 。Cassandra 包含 了 一 个 称 为 ConfigHelper 的 辅助 
类 ， 提 供 了 设置 所 需 属性 的 方法 ， 比 如 Thrift 连接 信息 (服务 器 和 端口 ) keyspace 
和 列 族 等 。 它 还 允许 我 们 设置 切片 谓词 。 


12.3.1 将 数据 输出 到 Cassandra 

在 这 个 例子 里 ，reducer 使 用 了 rileoutputFormat 输出 它 的 结果 。 像 它 的 名 字 那 
样 ，FileoutputFormat 将 结果 写 到 文件 系统 中 去 。 在 0.7 版 本 中 ， 将 有 一 个 基 
于 Cassandra 的 outputFormat 实现 。 在 本 章 写 作 的 时 候 ， 一 些 实现 细节 还 没有 最 
终 完 成 。 对 于 内 建 的 输出 格式 的 更 新 信息 可 以 参考 http://wiki.apache.org/cassandra/ 
HadoopSupport, 


不 过 ， 也 有 可 能 直接 在 Reducer 里 通过 Thrift (或 高 级 客户 端 ) 直接 将 数据 写 入 
到 Cassandra 中 。 在 这 个 例子 里 ， 这 意味 着 不 写 上 下 文 ， 而 是 直接 把 键 和 值 写 到 
Cassandra 中 。 











12.8.2. Hadoopift 

字数 统计 MapReduce 例子 是 用 Java 写成 的 。Hadoop 流 (streaming) 是 Hadoop 提 
供 的 允许 Java 之 外 的 其 他 语言 使 用 标准 输入 和 标准 输出 进行 MapReduce 工作 的 方 
法 。 在 本 章 写 作 时 ，Hadoop 流 还 不 支持 Cassandra 的 MapReduce 集成 。 不 过 这 个 
支持 将 在 不 远 的 将 来 实现 。 对 于 当前 的 状态 ， 可 以 参考 wiki。 


12.4 MapReduce 之 上 的 工具 


MapReduce 是 为 开发 者 提供 的 一 个 伟大 的 抽象 ， 这 样 他 们 可 以 更 少 地 考虑 分 布 式 计 
算 细 市 ， 更 多 地 考虑 他 们 要 解决 的 问题 了 。 随 着 时 间 的 推移 ， 更 抽象 的 工具 集 也 出 
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现 了 。Pig 和 Hive 运行 在 MapReduce Z E, JFfCVEJE RE ERD HIETE SA 
析 。 两 者 都 可 以 运行 在 Cassandra 的 数据 之 上 。 


12.4.1 Pig 


Pig (http://hadoop.apache.org/pig) 是 一 个 Yahoo! 开发 的 数据 分 析 平 台 。 这 个 平台 
包含 了 一 个 名 为 Pig Latin 的 高 级 语言 和 一 个 编译 器 ， 会 将 使 用 Pig Latin 写成 的 程 
序 编译 为 在 MapReduce 作业 的 序列 。 


开发 者 们 在 集成 Hadoop， 使 用 Cassandra 中 的 数据 运行 MapReduce 工作 的 同时 ， 
还 进行 了 一 些 Pig 集成 的 工作 。 通 过 使 用 Pig 的 grunt shell 提示 符 和 Pig Latin 脚本 
语言 ，Pig 提供 了 一 种 简化 查询 代码 编写 的 方法 。 使 用 Pig Latin 来 运行 字数 统计 例 
子 ， 只 要 这 样 : 


























LOAD 'cassandra://Keyspacel/Standard1' USING CassandraStorage() \ 

as (key:chararray, cols:bag(col:tuple(name:bytearray, value:bytearray)]); 
cols - FOREACH rows GENERATE flatten(cols) as (name, value); 

words - FOREACH cols GENERATE flatten(TOKENIZE((chararray) value)) as word; 
grouped - GROUP words BY word; 

counts = FOREACH grouped GENERATE group, COUNT (words) as count; 

ordered - ORDER counts BY count DESC; 

topten s LIMIT ordered 10; 

dump topten; 


这 个 字数 统计 只 有 8 行 长 。 第 一 行 读 取 了 所 有 Standardı 列 族 的 数据 ， 描 述 了 数 
据 的 别名 和 数据 类 型 。 我 们 从 每 行 中 提取 了 名 / 值 对 。 在 第 三 行 中 ， 我 们 必须 将 值 
转换 成 一 个 字符 数组 的 类 型 ， 让 它 可 以 用 于 内 建 的 TOKENIZE 函数 。 然 后 对 每 个 词 
进行 分 组 和 技术 。 最 后 ， 对 数据 按照 计数 进行 排序 ， 并 输出 找到 的 前 十 位 的 词 。 


PA 








使 用 Pig 处 理 超级 列 是 很 平常 的 操作 ， 只 是 有 一 层 嵌 套数 据 而 已 ， 我 们 可 
MS 4 、 以 将 它 扁平 化 ， 从 而 获取 里 面 的 值 。 


[I 





对 于 有 些 人 ， 编 写 MapReduce 程序 非常 乏味 而 且 充 满 了 样板 代码 。Pig 提供 了 一 层 
抽象 ， 让 代码 简洁 了 很 多 。 相 比 于 只 使 用 MapReduce, Pig 还 允许 程序 员 更 简单 地 
表达 join 之 类 的 操作 。 


Pig 集成 代码 (一 个 LoadFunc 的 实现 ) 位 于 Cassandra 源码 的 contrib 部 分 。 它 可 
以 按照 目录 中 提供 的 介绍 ， 编 译 并 运行 。 它 还 包含 了 一 些 如 何 配 置 Cassandra 特有 
配置 选项 的 介绍 。 现 在 ， 我们 可 以 看 看 如 何 配置 一 个 Cassandra 集群 来 分 布 式 地 运 
行 Pig 任务 了 (会 编译 为 MapReduce ) 。 





E 
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12.4.2 Hive 


和 Pig 2E [E], Hive (http://hadoop.apache.org/hive) 是 一 个 数据 分 析 平 台 。Hive 并 
不 使 用 脚本 语言 ， 而 是 使 用 一 种 类 似 于 SQL 的 称 为 Hive-QL 的 查询 语言 进行 查询 。 
Hive 由 Facebook 开发 ， 允 许 把 大 数据 集 抽象 为 通用 的 结构 。 


在 本 章 写 作 时 ，Hive 的 Cassandra 存储 处 理工 作 即 将 完成 。 对 于 Hive 与 Cassandra 
的 共同 使 用 的 更 新 和 文档 ， 可 以 参考 wiki, 


12.5 ”集群 配置 


MapReduce 和 其 他 工具 在 尝试 事物 或 解决 问题 的 时 候 ， 可 以 非 分 布 式 地 运行 。 但 
是 要 运行 在 生产 环境 中 ， 需 要 把 Hadoop 安装 到 Cassandra 集群 上 来 。 虽 然 深 入 讨 
论 Hadoop 的 安装 和 配置 超出 了 本 章 的 范围 ， 但 我 们 会 简单 介绍 如 何 让 Cassandra 
和 Hadoop 配置 在 一 起 以 获得 最 佳 性 能 。 读 者 们 可 以 从 http://hadoop.apache.org 找 
到 更 多 关于 Hadoop 配置 的 信息 ， 或 者 阅读 Tom White 的 杰作 《Hadoop 权威 指南 》 
(Hadoop: The Definitive Guide) (O^Reilly) ', 














因为 Hadoop 有 一 些 大 家 不 熟悉 的 专 有 名 词 ， 我 们 这 里 给 出 一 些 有 用 的 定义 。 


* HDFS 


Hadoop 分 布 式 文件 系统 。 


* namenode 
HDFS 的 主 节 点 。 它 拥有 存储 于 多 个 Datanode 的 数据 块 的 位 置信 息 ， 在 小 集群 
里 ， 经 常 和 jobtracker 运行 在 同一 台 机 器 上 。 


e datanode 
3 HDFS 存储 数据 块 的 节点 ，datanode 和 tasktracker 运行 在 相同 的 节点 上 。 


* jobtracker 
MapReduce 工作 的 主 节 点 。jobtracker 接收 新 工作 ， 将 工作 分 为 map fH reduce 4E 
务 ， 并 将 任务 交 给 集群 中 的 tasktracker 完成 。 它 负责 工作 的 完成 。 在 小 集群 中 ， 
它 经 常 和 namenode 运行 在 同一 个 节点 上 。 





* tasktracker 
负责 为 jobtracker 运行 map 或 reduce 任务 的 进程 。tasktracker 和 datanode 运行 在 
相同 的 服务 器 上 。 








译注 1: 也 可 参考 即将 由 人 民 邮 电 出 版 社 出 版 的 《Hadoop 实战 》。 
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和 Cassandra 一 样 ，Hadoop 也 是 一 个 分 布 式 系统 。MapReduce jobtracker 将 任务 分 
配 到 整个 集群 上 ， 尽 量 贴近 数据 所 在 的 位 置 。 当 jobtracker 启动 一 个 任务 时 ， 它 从 
HDFS 得 到 数据 存储 位 置 的 信息 。 类 似 地 ，Cassandra 内 建 的 Hadoop 集成 也 会 向 
jobtracker 提供 数据 位 置信 息 ， 这 样 任务 就 可 以 更 接近 数据 了 。 


为 了 达到 数据 本 地 化 ，Cassandra 节点 也 必须 是 Hadoop 集群 的 一 部 分 。namenode 
和 jobtracker 可 以 在 Cassandra 集群 之 外 的 服务 器 上 。Cassandra 节点 需要 成 为 集群 
的 一 部 分 而 在 每 个 节点 上 都 运行 tasktracker 进程 。 接 下 来 ， 当 一 个 MapReduce 任务 
启动 后 ，jobtracker 在 分 配 map 和 reduce 任务 时 ， 可 以 向 Cassandra 查询 数据 的 位 
置信 息 。 











图 12-1 示意 了 一 个 四 节点 的 Cassandra 集群 ， 每 个 Cassandra 节点 上 都 运行 着 
tasktracker 进程 。 集 群 中 至 少 有 一 个 节点 需要 运行 datanode 进程 。 少 量 数据 (分 布 
式 缓存 ) 仍然 需要 HDFS, ， 而 一 个 单独 的 datanode 应 该 足够 了 。 集 群 外 的 服务 器 运 
行 着 Hadoop 的 namenode 和 jobtracker。 


~ 
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12-1: 四 节点 的 Cassandra 集群 ， 外 部 有 namenode/jobtracker 


当 一 个 客户 机 发 起 任务 时 ， 它 会 到 达 jobtracker。jobtracker 在 工作 提交 时 ， 通 过 开 
始 提 到 的 配置 选项 得 到 数据 源 信息 。 这 时 它 可 以 使 用 Cassandra 的 co1umnFamily- 
RecordReader 和 columnFamilySplit 来 获取 不 同 片 段 的 数据 在 集群 中 的 物理 位 
置 。 之 后 ， 它 可 以 使 用 位 置信 息 将 任务 分 配 到 集群 中 的 节点 上 ， 尽 量 让 任务 运行 在 
有 相关 数据 的 节点 上 。 


最 后 ， 当 创建 工作 执行 MapReduce 的 时 候 (直接 或 是 通过 Pig), Hadoop 的 配置 需 
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要 (根据 Hadoop 配置 文件 ) 知道 namenode/jobtracker， 以 及 Cassandra 的 配置 选 
项 。 这 样 ， 集 群 就 可 以 支持 Hadoop 与 Cassandra 的 集成 了 。 


12.6 ZHI 


为 了 帮助 你 理解 为 什么 Cassandra/Hadoop 的 集成 是 有 趣 又 有 用 的 ， 我 们 将 会 介绍 一 
两 个 Cassandra 使 用 者 们 的 案例 。 





12.6.1 Raptr.com: Keith Thornhill 

Raptr 是 一 个 允许 游戏 玩家 相互 通信 并 共享 游戏 统计 和 成 就 的 服务 。Keith Thornhill 
是 Raptr 的 高 级 软件 工程 师 ， 他 发 现 需要 让 他 们 的 后 台 存 储 和 分 析 更 上 一 个 台阶 。 
他 们 老 的 存储 方案 和 分 析 方 法 是 最 早 的 土生 士 长 的 方法 ， 已 经 不 适应 现在 的 发 展 了 。 
在 整个 数据 集中 进行 查询 非常 困难 ， 可 能 需要 运行 儿 个 小 时 。 


Keigh 认为 Cassandra 是 一 个 很 有 前 途 的 存储 方案 ， 因 为 它 : 


。 内 建 的 可 扩展 性 ， 而 非 建 在 鹰 架 上 的 ， 

。 对 于 读 写 访问 呈现 单一 视图 〈 没 有 主 从 之 分 ) ; 

。 在 正常 情况 下 非常 易于 维护 (包括 节点 失败 、 增 加 新 节点 等 ),“ 直 接 可 用 ”"， 只 需 
要 很 少 的 微 管理 。 


Keith 也 在 关注 Cassandra/Hadoop 的 集成 工作 的 演进 ， 并 把 Pig 看 做 是 一 个 他 可 以 使 
用 的 分 析 解 决 方案 。 起 初 他 希望 找到 通过 PHP 或 是 Python 使 用 MapReduce 的 方法 。 
但 是 ， 当 他 熟悉 了 Pig 之 后 ， 就 没有 这 样 的 需求 了 。 他 指出 ， 从 有 想法 到 执行 Pig tE 
务 的 周转 时 间 可 以 非常 少 。 查 询 时 间 也 让 人 惊喜 。 他 可 以 在 10-15 分 钟 内 遍历 所 有 
数据 ， 而 非 几 个 小 时 。 作 为 结果 ，Raptr 已 经 有 能 力 寻 找 新 的 分 析 数 据 的 可 能 性 了 。 

对 于 配置 ，Keith 使 用 了 独立 的 namenode 和 jobtracker， 并 在 每 个 Cassandra 节点 上 


安装 了 datanode/ tasktracker。 他 认为 ， 这 样 的 一 个 很 好 的 副作用 就 是 ， 分 析 引 擎 也 
可 以 和 数据 一 起 扩展 。 




















12.6.2 Imagini: Dave Gardner 
Imagini 为 发 行商 提供 工具 ， 通 过 “可 视 实验 ”和 推理 引擎 对 它们 站 点 的 访问 者 进行 
分 析 。 在 幕后 ， 这 需要 处 理 大 量 的 行为 数据 ， 然 后 让 数据 可 以 实时 访问 。 


在 调研 了 很 多 替代 方案 之 后 ，Imagini 因为 Cassandra 的 容错 性 、 无 中 心 架构 (没有 
单 点 失效 ) 和 强大 的 写 能 力 而 选择 了 它 。 
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Dave Gardner 是 Imagini 的 一 位 高 级 开发 者 ， 他 写 道 :“ 我 们 使 用 Cassandra 存放 实 
时 数据 ， 包 括 大 约 1 亿 用 户 的 信息 ， 而 且 在 未 来 一 年 中 还 会 快速 增长 。 这 些 数据 差 
不 多 都 是 简单 的 键 值 查找 。 


目前 ，Imagini 从 各 种 数据 源 收 集 数据 放 入 Hadoop 分 布 式 文件 系统 (HDFS) 之 中 。 
使 用 Hadoop 流 ， 他 们 使 用 PHP 对 数据 进行 MapReduce 处 理 ， 并 在 reducer 里 ， 通 
过 Thrift 将 输出 直接 送 入 Cassandra 里 。 在 Cassandra 中 的 结果 可 以 提供 实时 的 数据 
访问 。 








— H Cassandra 支持 了 Hadoop 流 ，Imagini 就 有 希望 进一步 简化 数据 流 了 。 他 们 其 
至 计划 把 原始 数据 直接 存放 在 Cassandra 之 中 ， 在 数据 上 进行 MapReduce， 然 后 直 
接 输 出 到 Cassandra。 





12.7 ”小结 


本 章 中 ， 我 们 学 习 了 Hadoop— Google MapReduce 算法 的 开源 实现 。 我 们 了 解 了 
Hadoop 的 基本 概念 ， 然 后 通过 一 个 字数 统计 的 例子 学 习 了 如 何 将 它 与 Cassandra 集 
成 在 一 起 ， 还 看 到 了 如 何 使 用 Pig， 一 种 简单 而 简洁 的 用 于 表达 MapReduce 工作 的 


;五 二 
语言 。 


最 后 ， 我 们 了 解 了 一 些 公司 在 集成 使 用 Hadoop 和 Cassandra 时 的 状况 。 
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附录 


非 大 系 型 数据 库 大 观 











Cassandra 只 是 冉冉 升 起 的 众多 新 的 非 关 系 型 数据 库 项 目 中 的 一 个 ， 为 了 了 解 非 关系 
型 数据 库 的 设计 目标 ， 以 及 基于 这 些 目标 而 采用 的 种 种 具体 设计 ， 我 们 来 探究 一 下 
这 些 不 同 的 项 目 。 

















| * 近来 ， 我 们 时 常 听 到 “NoSQL” 这 个 名 词 ， 用 来 描述 一 些 不 使 用 SQL 的 数 

p^ , 据 库 。 我 也 一 直 使 用 “ 非 关 系 型 ”这 个 名 词 来 总 称 这 些 数据 库 。 不 过 ， 本 

"A 附录 中 ， 我 们 会 解释 为 什么 不 应 该 从 这 个 角度 来 描述 这 些 产品 。 从 这 个 角 
度 对 比 NoSQL 数据 库 和 传统 关系 型 数据 库 ， 没 有 实际 意义 ， 接 下 来 你 就 
会 看 到 ， 所 有 这 些 所 谓 的 “NoSQL” 数 据 库 本 身 各 不 相同 ， 不 论 是 具体 实 
现 ， 还 是 目标 、 特 性 、 优 缺点 等 ， 都 和 各有千秋。 所以， 比较 “NoSQL” 和 
“关系 型 ”是 个 不 折 不 扣 的 骗局 。 














在 本 附录 中 ， 我 们 将 审视 多 种 流行 的 非 关 系 型 数据 库 。Cassandra 非常 擅长 做 某 些 事 
情 ， 但 做 其 他 事情 不 见得 在 行 。 所 以 我 的 目标 是 帮助 你 理解 Cassandra 在 多 种 非 关 
系 型 数据 库 中 所 处 的 位 置 ， 以 根据 需求 来 做 出 正确 的 选择 。 即 使 你 已 经 明确 希望 使 
用 Cassandra 了 ， 这 个 调研 仍然 可 以 帮 你 理解 Cassandra 的 很 多 设计 决策 和 取舍 
之 处 。 


A.1 非 关 系 型 数据 库 


毫 无 疑问 ， 世 界 上 随处 可 见 那些 没有 使 用 半点 关系 模型 的 流行 数据 库 产 品 。 它 们 包 
括 对 象 数据 库 、 原 生 XML 数据 库 、 面 向 文档 的 数据 库 、 图 数据 库 以 及 键 - 值 存储 
系统 。 其 中 的 一 些 代表 产品 已 经 使 用 很 多 年 了 ， 男 一 些 则 刚刚 开始 产品 应 用 。 我 在 
这 里 讨论 儿 种 非 关 系 型 数据 库 。 
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这 里 有 很 多 非 关 系 型 数据 库 设 有 提 到 ， 主 要 是 因为 它们 或 者 少 有 人 问津 ， 
Wa. 或 者 是 专用 系统 ， 抑 或 是 还 没有 什么 具体 实现 或 是 产品 级 应 用 。 其 中 之 一 
就 是 “ 半 关 系 型 ”数据 库 Drizzle， 这 是 一 种 基于 MySQL 的 产品 。 微 软 
基于 SQL Server 的 云 数 据 库 平台 称 为 SQL Server 数据 服务 (SDS)。 还 有 
Yahoo! 的 PNUTS 毫 无 疑问 也 是 值得 一 看 的 。PNUTS 的 论文 可 以 在 这 里 找 
到 : http://research.yahoo.com/files/pnuts.pdf。 想 要 了 解 更 完整 的 非 关 系 型 
数据 库 ， 可 以 访问 Alex Popescu 的 非常 棒 的 网 站 MyNoSQL: http://nosql. 


mypopescu.com, 




















你 读 这 本 书 可 能 是 因为 已 经 为 自己 的 项 目 选 择 了 Cassandra。 当 然 ， 你 也 可 能 只 是 听 
说 Twitter 和 Facebook 这 样 的 流行 网 站 在 使 用 Cassandra， 所 以 决定 来 进一步 了 解 
它 。 如 果 是 后 者 ， 了 解 一 些 竞 争 产 品 ， 看 看 它们 各 自 的 专长 、 差 异 ， 以 及 Cassandra 
与 它们 相互 间 的 对 比 ， 可 能 是 非常 必要 的 。 


所 以 来 看 看 这 些 替 代 产 品 ， 看 看 它们 和 我 们 已 经 熟悉 的 数据 库 产 品 有 何 异 同 。 我 会 
尽力 使 用 同一 套 分 类 名 词 来 描述 各 个 产品 的 特性 ， 以 便 进 行 比较 。 


总 的 来 说 ， 这 些 数据 库 都 是 分 布 式 的 ， 这 意味 着 它们 的 设计 允许 用 多 个 市 点 容纳 数 
据 的 副本 ， 自 动 管理 副本 。( 不 过 也 有 例外 ， 比 如 亚马逊 的 SimpleDB。) 它们 拥有 
各 种 处 理 大 规模 扩展 的 特性 ， 这 对 于 很 多 新 的 网 络 应 用 非常 重要 。 


不 过 ， 从 另 一 个 角度 来 看 ， 这 些 数据 库 都 还 缺少 优秀 的 工具 和 框架 的 支持 。 很 多 解 
决 方案 都 很 新 ， 这 意味 着 开发 者 们 还 集中 在 核心 产品 上 ， 你 不 得 不 放弃 那些 图 形 化 
终端 之 类 的 工具 ， 至 少 是 暂时 放弃 ， 虽 然 这 些 工 具 在 RDBMS 中 已 经 相当 普遍 了 。 
要 使 用 包括 Cassandra 在 内 的 这 些 解决 方案 ， 需 要 适应 命令 行 工 作 界面 、 简 陋 的 
Shell 工具 ， 以 及 做 一 些 脏 活 昧 活 。 但 是 因为 在 这 些 数据 库 中 ， 很 多 正在 逐渐 流行 和 
获得 认可 ， 所 以 你 可 以 期 待 不 久 的 将 来 就 有 便利 的 工具 可 用 了 。 


A.2 对象 数据 库 

对 象 数据 库 的 设计 初衷 是 避免 对 象 -关系 模型 之 间 的 “阻抗 不 匹配 ”问题 ， 在 面向 
对 象 语言 的 项 目 里 使 用 关系 型 数据 库 的 时 候 常 常 面 临 这 样 的 问题 。 对 象 数 据 库 中 的 
数据 并 不 按照 关系 和 行列 来 存储 ， 而 是 直接 以 对 象 的 方式 来 存储 ， 这 在 面向 对 象 应 
用 中 可 以 非常 直接 地 使 用 。 这 可 以 让 你 在 程序 中 回避 多 余 的 SQL 代码 ， 或 是 存储 
过 程 ， 以 得 到 从 应 用 对 象 到 数据 库 表 的 映射 ， 同 时 避免 使 用 对 象 -关系 映射 (ORM) 
E. ORM 层 可 能 会 非常 笨重 ， 增 加 了 应 用 代码 的 复杂 性 ， 并 影响 数据 操作 的 效率 。 


因为 在 对 象 数据 库 里 ， 你 不 需要 再 进行 应 用 中 的 对 象 到 关系 型 模型 的 数据 转换 ， 所 
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以 应 用 可 以 运行 得 非常 快 。 你 还 不 需要 使 用 关系 键 值 进行 join 来 应 付 查询 ， 因 为 数 
据 库 里 的 数据 和 应 用 里 一 样 ， 都 可 以 通过 指针 来 进行 查找 。 


对 象 数据 库 从 20 世纪 70 年 代 中 期 到 80 年 代 就 出 现 了 ， 但 从 未 获得 广泛 的 商业 应 
用 ， 只 在 一 些 刚 刚 起 步 的 边缘 领域 里 获得 成 功 ， 如 计算 机 辅助 设计 (CAD) 应 用 、 
空间 应 用 、 电 信和 领域 和 艇 入 式 系统 。 


InterSystems 的 对 象 数据 库 Caché 可 能 是 最 为 人 所 知 的 对 象 数 据 库 商 业 产品 了 ， 此 
外 ， 永 久 对 象 与 可 扩展 数据 库 技 术 (POET， 现 在 称 为 Versant Object Database), ， 也 
可 以 在 Java、.NET 和 C++ 应 用 中 使 用 。 


面向 对 象 数据 库 有 一 些 致命 缺点 。 虽 然 使 用 面向 对 象 数 据 库 可 以 带 来 很 多 性 能 上 的 
改善 ， 但 是 也 会 让 数据 存储 与 应 用 过 为 紧密 地 耦合 在 一 起 ， 你 需要 进行 取舍 ， 看 是 
否 值 得 这 么 做 。 而 且 ， 对象 数据 库 的 数据 序列 化 写 入 与 读 出 通常 只 匹配 同一 种 语言 ， 
这 种 更 紧密 的 耦合 关系 同时 也 严重 地 限制 了 架构 的 灵活 性 。 


近年 来 ， 相 比 于 这 里 提 到 的 其 他 存储 系统 ， 对 象 数 据 库 较 少 受到 关注 ， 也 鲜 有 发 展 ， 
所 以 我 也 不 会 更 详细 地 介绍 它们 了 。 


A.3 XML 数据 库 


XML 数据 库 是 文档 数据 库 的 一 种 特殊 形式 ， 专 门 为 与 XML 一 起 应 用 而 优化 。XML 
的 第 一 个 工作 草案 于 1996 年 完成 。1998 年 2 月 ，W3C 发 布 了 1.0 版 的 XML 标准 ， 
很 快 XML 就 在 全 世界 范围 内 得 到 了 广泛 的 应 用 。 众 多 互联 网 应 用 发 现 这 种 格式 的 
语义 非常 丰富 ， 很 容易 用 作 跨 语言 的 传输 介质 。 于 是 ， 所 谓 的 “XML 原生 ”数据 库 
很 快 就 出 现 了 ， 最 早 的 之 一 就 是 Software AG 的 Tamino。 现 在 ，XML 数据 库 可 以 
用 于 多 种 不 同 的 场景 ， 比 如 内 容 管理 和 供应 链 管理 系统 、 文 档 管理 、 出 版 以 及 SOA 
支持 。 
































XRX 架构 


除了 刚才 已 经 提 到 的 用 法 ，XML 数据 库 还 是 所 谓 “XRX 网 络 应 用 架构 ”的 中 
心 ， 这 个 概念 也 是 近年 来 逐步 走红 的 。 这 种 架构 是 “对 称 的 ”有 时 也 称 为 是 
“ 零 转 换 ” 的 ， 因 为 它 在 应 用 的 每 层 都 使 用 XML。XRX X XForms, REST 和 
XQuery 三 者 的 首 字母 缩写 。 


ERP 3, XRX 使 用 XForms， 这 是 W3C 建议 的 HTML 表单 的 XML 格式 替 
Ræ, XForms 可 以 描述 表单 所 需 的 各 种 控件 ， 不 过 它 不 强制 要 求 最 终 的 表达 
形式 。 也 就 是 说 ，XForms 可 以 在 网 页 中 ， 也 能 在 其 他 应 用 里 展现 ， 比 如 Open 
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Office 或 是 Lotus 文档 。 它 是 通过 “模型 -视图 -控制 器 ”(MVC) 设计 来 达到 
这 种 灵活 性 的 ， 还 允许 使 用 XML schema 验证 、 页 面 内 数据 刷新 等 高 级 特性 。 
目前 ， 还 没有 浏览 器 原生 支持 XForms， 不 过 Firefox £6.22 74 dé fF à 44 XForms, 
也 有 很 多 程序 库 可 以 在 服务 端 将 XForms 转换 成 XHTML 。 


在 中 间 层 ，XRX 使 用 RESTful 服务 ， 甚 至 有 时 直接 暴露 数据 库 的 RESTful 接 
口 ; ARS. XRX 使 用 原生 XML 数据 库存 储 ， 并 用 XQuery 查询 文档 ， 这 些 
数据 库 通常 会 提供 一 个 RESTful 接口 。 








XML 数据 库 已 经 被 部 分 证 明 非 常 有 用 ， 因 为 它们 允许 开发 者 对 于 某 些 的 XML 文档 





XML 数据 库 有 一 类 核心 功能 : 允许 你 存储 和 查询 XML 文档 。 虽 然 它们 通常 都 不 直 


直接 使 用 XML 工作 。 之 前 我 们 提 到 开发 者 使 用 面向 对 象 语 言 与 关系 型 数据 库 时 面 


临 


了 “阻抗 不 匹配 ”情况 ， 在 数据 层 直 接 使 用 XML 的 需求 也 与 此 类 似 。 








接 使 用 “原生 ”格式 进行 存储 ， 但 开发 者 们 可 以 通过 XML 的 API 来 访问 ， 这 就 好 
像 后 端 使 用 了 XML 格式 存储 一 般 。 它 们 的 功能 特性 包括 如 下 儿 项 。 

















使 用 XML 友好 的 查询 机 制 ， 如 XPath 和 XQuery。XPath 是 在 文档 中 对 不 同 数据 
项 寻 址 的 机 制 ， 如 元 素 和 属性 。XQuery 提供 了 一 个 稳固 的 FLOWR 形式 查询 机 制 
(FLOWR 是 For, Let, Where, Order, Return 五 种 语句 的 首 字母 缩写 )。 
直接 在 应 用 中 使 用 XML 的 时 候 可 以 获得 性 能 提升 。 某 些 使 用 XML 的 应 用 不 得 不 
将 文档 映射 到 关系 型 数据 库 当 中 ， 但 是 如 果 省 略 映射 的 过 程 直接 使 用 XML 数据 库 
将 有 很 多 好 处 。 比 如 ，XML 文档 一 般 代 表层 次 化 数据 结构 ， 而 此 结构 可 能 难以 映 
射 到 关系 模型 之 中 。 

可 以 灵活 地 访问 数据 。XML 数据 库 让 你 常常 可 以 用 DOM、JDOM、SAX API 和 
SOAP 协议 来 访问 数据 。 这 些 协议 都 有 自己 的 专长 ， 你 不 必 受 限于 SQL 的 单一 的 
查询 机 制 。 

快速 的 全 文 搜索 。 

关系 型 数据 库 里 所 熟悉 的 功能 ， 如 跨 文 档 集 合 的 join、 用 户 定 义 函 数 、 元 数据 和 数 
据 的 搜索 等 。 

灵活 使 用 XML 协议 栈 ， 如 在 展现 层 使 用 XForms, 

其 他 特性 ， 比 如 存储 非 XML 文档 [ 如 纯 文本 ( 非 结 构 化 ) 文档 ]。 

















如 果 你 还 不 熟悉 XPath 这 种 在 XML 文档 里 查找 数据 的 方法 ， 看 看 下 面 这 个 XML 示 


例文 档 : 








<catalog> 
<plays> 
<play name='Hamlet'><price>5.95</price></play> 
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«play name-'King Lear'»«price»6.95«/price»«/play» 
«/plays» 
«/catalog» 
对 于 上 面 这 个 XML 文档 ， 下 面 的 XPath 表达 式 的 返回 值 应 该 是 6.95， 这 个 结果 是 
通过 查找 名 称 为 “King Lear” HJ play 元 素 里 的 price 元 素 得 到 的 : 





//catalog/plays/play/[Gname-'King Lear']/price 


有 多 个 XML 数据 库 的 开源 项 目 和 商业 产品 可 供 选 择 。 通 常 它们 会 使 用 两 种 存储 机 
制 之 一 : 基于 文本 或 是 基于 模型 。 基 于 文本 的 XML 数据 库 通常 将 数据 存储 为 一 个 
大 文本 文件 ， 或 是 字符 型 大 对 象 (CLOB), ， 甚 至 是 二 进 制 大 对 象 (BLOB), CNE 
储 在 底层 关系 型 数据 库 中 ， 并 提供 转换 机 制 。 基 于 模型 的 XML 数据 库 并 不 直接 存 
储 XML 文档 的 文字 内 容 ， 相 反 ， 它 们 把 文档 转化 成 内 部 的 面向 开发 者 呈现 为 XML 
文档 的 专 有 对 象 模 型 。 这 常常 会 把 XML 文档 拆 分 成 很 多 不 同 部 分 (各 个 元 素 、 属 
性 等 )， 将 它们 分 段 存 放 到 一 个 关系 数据 库 中 。 


下 面 儿 市 会 简单 浏览 一 些 流行 的 XML 数据 库 。 








A.3.1 SoftwareAG Tamino 


Tamino 是 最 早 的 XML 原生 数据 库 之 一 。 它 是 一 个 成 熟 的 商业 产品 ， 广 泛 支 持 你 所 
期 望 的 “企业 级 ”数据 库 所 需 的 各 种 功能 ， 比 如 高 可 用 。 


A.3.2 eXist 


eXist XML 数据 库 最 初 是 Wolfgang Meier 于 2000 年 创建 的 个 人 项 目 ， 并 一 直 持 续 
积极 发 展 至 今 。 这 是 一 个 使 用 Java 编写 的 开源 项 目 。 它 提供 了 对 很 多 机 制 的 支持 ， 
包括 XPath、XQuery， 以 及 XInclude, WebDAV (分 布 式 授权 与 版 本 )、 用 于 安全 
的 XML 访问 控制 标记 语言 (XACML), SOAP, REST 和 XML-RPC。eXist 还 提供 
了 一 个 易 用 且 基 于 Web 的 用 于 查询 的 控制 台 。 


A.3.3 Oracle Berkeley XML DB 


Berkeley XML DB 是 一 个 用 Java 编写 的 开源 数据 库 ， 最 初 是 一 个 哈佛 的 研究 项 目 ， 
目前 由 Oracle 支持 。Berkeley XML DB 可 以 硅 入 到 应 用 之 中 ， 可 以 作为 一 个 JAR 
包 放 在 应 用 里 。 它 支持 C++、Java、XQuery、 高 可 用 和 事务 。Berkeley 数据 库 更 
加 倾向 于 为 开发 者 而 非 DBA 设计 ， 唯 一 与 数据 库 交 互 的 手段 就 是 写 代 码 ， 没 有 独 
立 的 服务 器 ， 也 没有 SQL Server Management Studio 之 类 的 图 形 化 工具 。 可 以 用 
Berkeley XML DB 混合 存储 XML 文档 和 非 结 构 化 文档 。 
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A.3.4 MarkLogic Server 


MarkLogic 是 由 支持 XQuery 创建 、 读 取 、 更 新 、 删 除 (CRUD) 操作 ， 全 文 搜索 ， 
XML 检索 和 事务 的 XML 数据 库 所 支援 的 服务 器 。 它 支持 使 用 XML 文档 或 JSON 
的 REST 接口 。MarkLogic 是 一 个 商业 产品 ， 但 对 于 小 项 目 和 非 盘 利 组 织 ， 可 以 使 
用 一 个 免费 的 社区 授权 。 





A.3.5 Apache Xindice 


Apache Xindice 项 目 也 是 早期 XML 数据 库 之 一 ， 开 始 于 2001 年 。 按 照 设计 ， 它 仅 
用 于 小 型 或 中 等 尺寸 的 文档 。 自 从 2007 年 ， 它 的 上 一 个 版 本 一 一 1.1 版 本 发 布 之 后 ， 
就 没有 积极 的 维护 了 ， 版 本 1.2 的 工作 已 经 进行 了 很 多 年 了 。 


A.3.6 小 结 


实际 上 还 有 很 多 其 他 的 XML 数据 库 ， 包 括 TigerLogic、MonetDB、Sedna 等 。 不 
过 ， 在 这 里 介绍 XML 数据 库 的 重要 目的 是 ， 为 随后 介绍 更 新 的 面向 文档 的 数据 库 
做 一 些 铺垫 。 更 确切 地 说 ， 这 些 数据 库 的 最 大 亮点 就 在 于 ， 从 这 里 可 以 看 到 通过 将 
数据 库 映 射 到 应 用 特定 架构 的 需求 而 实现 的 优势 ， 而 非 草率 地 认为 关系 型 数据 库 可 
以 包 治 百 病 。 





当然 ， 如 果 你 只 是 存储 小 型 XML 文档， 而 且 应 用 不 需要 文档 集合 ， 那 么 可 能 使 用 
XML 数据 库 也 不 会 获得 什么 性 能 上 的 改观 。 


A.4 面 问 文档 的 数据 库 


在 关系 型 数据 库 中 ， 数 据 存放 在 表 中 ， 也 有 可 能 ， 数 据 会 被 反复 “拆散 ”， 以 便 使 用 
关系 键 值 。 然 后 ， 写 出 复杂 的 查询 语句 ， 以 便 通 过 查询 在 行列 二 维 的 表格 中 重组 得 
到 所 需要 的 关系 型 数据 。 


而 面向 文档 的 数据 库 一 般 会 有 这 样 儿 个 优点 。 


。 文档 数据 库 的 基本 存储 单位 就 是 一 整 篇 文档 。 一 篇 文档 可 以 存储 任意 数量 的 不 限 长 
度 的 域 ， 每 个 域 可 以 存储 多 个 值 。 在 这 方面 ， 文 档 数据 库 与 关系 型 数据 库 的 不 同 就 
在 于 ， 后 者 每 个 记录 的 所 有 域 都 必须 有 值 。 

。 在 一 个 面向 文档 的 数据 库 中 ， 不 需要 像 RDBMS 中 那样 ， 在 没有 值 可 存 的 时 候 存 储 
“ 空 ” 域 。 这 就 节省 了 数据 库 的 空间 。 

。 它们 都 不 需要 schema， 形 式 上 非常 随意 。 

。 可 以 对 每 个 文档 单独 设 定安 全 级 别 。 
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。 它们 通常 都 支持 全 文 检 索 。 少 数 RDBMS 也 能 提供 这 个 功能 ， 但 在 面向 文档 的 数据 
库 中 就 非常 普遍 了 。 

那么 ， 到 底 什 么 是 “文档 ” 呢 ? 可 以 是 文本 ， 存 储 为 JSON 格式 (参考 “何谓 
JSON”) ; 也 可 以 是 XML， 前 面 已 经 单独 讨论 了 使 用 XML 的 文档 数据 库 ， 还 可 能 
是 YAML 文档 (大 部 分 JSON 文档 都 可 以 被 YANL 解析 器 解析 ) ;还 可 能 是 其 他 格 
式 ， 因 为 有 太 多 的 其 他 选择 。 任 意 两 个 文档 数据 库 的 实现 技术 都 不 相同 。 举 例 来 说 ， 
CouchDB 把 数据 存储 为 JSON， 而 历史 悠久 的 Lotus Notes 则 使 用 它 自己 的 内 部 
格式 。 

















何谓 JSON 
JSON X JavaScript Object Notation (JavaScript 对 象 标记 ) 的 缩写 ， 是 一 种 可 
以 替代 XML 的 数据 交换 格式 。 一 个 简单 的 用 于 存储 地 址 簿 里 的 联系 人 信息 的 
JSON 文档 大 致 会 是 这 样 的 : 


{ 
"contact": { 
"fname": "Alison", 
"Iname": "Brown", 
"address": ("street": "301 Park Ave", "city": "New York", "state": 
ING Ap "10022"], 
"phone": [ 
( "type": "mobile", "number": "480-555-5555" Ty 
{ "type": "home", "number": "212-444-4444" } 
] 
} 
} 


同样 的 信息 ， 用 XML 表述 应 该 是 这 个 样子 的 : 


«contact» 
«fname»Alison«/fname»«lname»Brown«/lname-» 
«address» 
«street»301 Park Ave«/street»«city»New York«/city» 
«state»NY«/state»«zip»10022«/zip» 
«/address» 
«phone type-"mobile"2480-555-5555-/phone» 
«phone type-"home"2212-444-4444-/phone» 
«/contact» 


JSON 只 支持 少量 数据 类 型 ， 没 有 XML 提供 的 那么 丰富 。JSON 支持 的 数据 类 
型 包括 数字 、Unicode FHP, ^i, kg, Sp dem, 


在 上 面 这 个 JSON 文档 中 ， 你 可 以 看 到 一 个 带 有 几 个 属性 的 联系 人 对 象 。 名 和 
姓 以 字符 串 形 式 存 储 。 地 址 属性 是 一 个 对 象 ， 因 为 它 也 定义 了 自己 的 属性 。 最 
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后 ， 电 话 属 性 有 一 个 数组 值 ， 使 用 方 括号 表示 ， 里 面 的 类 型 属性 是 重复 出 现 
的 。JSON 的 互联 网 媒体 类 型 是 application/json。 


JSON 大 约 在 1999 年 就 出 现 了 ,但 直到 8 近 几 年 ， 当 开发 者 已 经 厌倦 了 腑 肿 的 
XML 以 及 它 难 用 的 工具 和 API It, JSON 才 迅 速 流行 起 来 。 一 个 简单 的 事实 就 
是 ，JSON 文档 通常 比 XML 文档 短 30%, Google 在 2006 年 开始 使 用 JSON 作 
为 其 GData 协议 的 格式 ， 这 在 很 大 程度 上 提高 了 JSON 的 知名 度 。 


相对 于 XML 文档 ，JSON 文档 更 加 轻 量 级 ， 虽 然 XML 在 很 多 平台 上 都 有 广泛 
的 工具 支持 ， 但 JSON 文档 非常 简单 ， 交 互 时 也 需要 更 少 的 工具 支持 。 对 于 某 
些 应 用 来 说 ，JSON 的 一 个 潜在 的 缺点 是 ， 没 有 XML schema 那样 的 方式 可 以 
直接 验证 文档 结构 。 


在 直接 表示 数据 的 时 候 ， 或 是 在 文档 数据 库 和 分 布 式 哈 希 表 的 例子 中 ， 都 经 常 
使 用 JSON， 所 以 它 很 值得 单独 介绍 ， 在 本 书 中 ， 也 经 常见 到 JSON 的 身影 。 








你 可 以 把 面向 文档 的 数据 库 当 做 是 一 些 键 - 值 集合 ， 把 它们 看 做 是 稍 后 在 A.6 市 讨论 
的 “ 键 - 值 存储 和 分 布 式 哈 希 表 ” 的 前 身 。 这 里 有 一 个 简单 的 JSON 文档 : 


{ 





"title": "I Heart LolCatz", 

"author: "Inigo Montoya", 

"ts": Date("31-Dec-99 11:59"), 

"comments": [{ 

"author": "Robert Zimmerman", 

"comment: "I'm just a song and dance man"}, { 
"author": "Rogers Nelson", 

"comment: "I'm just a song and dance man"] 


] 

) 
看 起 来 似乎 很 简单 ， 而 考虑 一 下 如 何 用 关系 数据 库 里 的 表 来 表达 一 个 如 此 简单 的 数 
据 结构 ， 以 及 如 何 查询 ， 可 能 就 不 是 那么 容易 了 。 但 在 面向 文档 数据 库 里 ， 存 储 的 
就 是 这 个 文档 ， 查 询 也 会 非常 简单 。 


A.4.1 IBM Lotus 


Lotus 最 早 的 版 本 发 布 于 1989 年 ， 可 能 是 所 有 面向 文档 的 数据 库 的 灵感 来 产 ， 包 括 
CouchDB 和 MongoDB., Lotus 是 一 组 用 于 协作 的 软件 产品 套件 ， 包 括 用 于 email, 
讨论 和 日 历 的 Lotus Notes 和 Domino， 以 及 用 于 即时 消息 的 Lotus Sametime 及 其 他 
组 件 。 
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。 网 站 : http://www.ibm.com/software/lotus 

。 面向 : 文档 

。 创建 : Lotus 的 首 个 版 本 发 布 于 1989 年 。 截 止 到 本 书写 作 时 的 最 新 版 本 是 2010 年 
3 月 发 布 的 8.5 版 本 。 

e schema: 不 需要 schema。 文 档 ("notes") 存储 在 称 为 Notes 存储 文件 (NSF) 的 
自 有 格式 内 ， 但 可 以 看 做 是 一 种 具有 与 JSON 类 似 建 模 目 的 的 文档 。 

。 客户 端 : 最 新 版 本 的 最 终 用 户 客户 端 是 基于 Eclipse 的 。 要 与 Domino 数据 库 交互 ， 
可 以 使 用 C、C++ 或 是 Java 的 API, Notes 的 数据 库 是 非 关 系 型 的 ， 但 可 以 使 用 一 
个 SQL 驱动 来 访问 它 ， 而 且 Domino XML 语言 还 提供 了 全 部 数据 的 XML 视图 ， 
你 可 以 使 用 XML 工具 处 理 数据 。 

。 CAP: Lotus 可 以 集群 化 并 进行 副本 复制 。 

。 产品 应 用 : Lotus 在 很 多 企业 中 都 作为 员工 协作 工具 使 用 。 








A.4.2 Apache CouchDB 
作为 一 种 数据 库 ，CouchDB 可 能 是 和 Lotus Notes 最 为 相似 的 了 。 这 并 不 奇怪 ， 它 
的 创始 人 Damien Katz 在 决定 开始 创建 这 个 项 目 之 前 就 是 在 IBM 从 事 Lotus Notes 
相关 工作 的 ， 后 来 开始 感到 它 可 以 作为 一 种 “为 Web 而 生 的 ”数据 库 ， 才 开始 了 
CouchDB 项 目 。CouchDB 中 的 文档 不 需要 使 用 相同 的 schema， 可 以 通过 视图 进行 
查询 ， 视 图 是 通过 JavaScript 函数 构成 的 。 


CouchDB 最 有 趣 的 特性 之 一 是 多 版 本 并 发 控制 (MVCC)。MVCC 意味 着 读 操作 将 

会 阻塞 写 操作 ， 写 操作 也 不 会 阻塞 读 操 作 。 为 了 支持 这 个 特性 ， 所 有 的 写 操作 都 
作为 追加 写 加 入 到 文档 之 中 ， 这 样 就 很 难 破坏 数据 文件 了 。 这 个 实现 和 Cassandra 
有 些 相 似 ， 但 使 用 一 个 纯 追 加 写 模型 意味 着 文件 可 能 会 很 快 就 增长 到 很 大 ， 需 要 一 
个 后 台 进 程 来 进行 压 紧 操作 。 
































Ñ a 
Te 如 果 你 希望 更 多 地 了 解 CouchDB， 可 以 参阅 O'Reilly 的 《CouchDB fx 
CS Wü t Bj 9 (CouchDB: The Definitive Guide), Wi J. Chris Anderson, Jan 
: Lehnardt fll Noah Slater 合 著 。 





。 网 站 : http://couchdb.apache.org 

。 面向 : 文档 

。 创建 开始 于 2005 4E, 2008 年 成 为 Apache MHE M H 

。 实现 语言 : Erlang 

。 分 布 式 : 是 ， 离 线 时 数据 也 可 以 被 用 户 和 服务 器 读 取 或 更 新 ， 在 之 后 ， 所 有 的 变更 
都 可 以 进行 双向 同步 。 
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A. 


schema: 不 需要 schema。 文 档 可 以 全 部 以 JSON 格式 存储 。 每 个 文档 有 了 唯一 的 ID. 
客户 端 RESTful 的 JSON API 允许 任何 可 以 发 起 HTTP 请 求 的 语言 访问 。 

CAP: 最 终 一 致 性 。 具 有 副本 复制 机 制 ， 用 于 同步 不 同 节 点 上 的 多 份 数据 副本 。 与 
很 多 关系 数据 库 类 似 ，Couch 提供 了 ACID 语义 。 

产品 应 用 : CouchDB 在 本 书写 作 时 仍然 没有 完成 1.0 发 布 ， 但 在 多 个 社交 网 站 和 软 
件 应 用 中 已 经 有 了 对 应 产品 。 参 考 http://bit.ly/dn73DY 中 的 产品 应 用 列表 。 

附加 特性 : 支持 MapReduce、 增 量 副 本 复制 和 容错 性 。 带 有 Web 控制 台 。 








4.3 MongoDB 


MongoDB 可 能 和 CouchDB 最 为 相似 。 它 旨 在 融合 键 值 存储 、 文 档 数据 库 、 对 象 数 
HEM RDBMS 的 精华 之 处 。 具 体 地 说 ， 它 和 键 值 存储 一 样 自动 分 片 ， 允 许 使 用 基 


于 








JSON 的 动态 schema 文档 ， 并 提供 关系 数据 库 形式 的 丰富 的 查询 语言 。 


^a 





A. 





如 果 你 希望 更 多 地 了 解 MongoDB, AAZ H] O'Reilly 的 《MongoDB 权威 指 
南 》 (MongoDB: The Definitive Guide) ', HH Kristina Chodorow 和 Michael 
Dirolf 4 3E, 





网 站 : http://www.mongodb.org 

面向 : 文档 

创建 由 Geir Magnusson 和 Dwight Merriman 在 10gen 开发 。 

实现 语言 : C++ 

分 布 式 : 是 

schema: 存储 JSON 风格 的 文档 ， 可 以 使 用 动态 schema, 

CAP: MongoDB 对 所 有 分 片 都 使 用 单 主 节点 的 方式 ， 可 以 达到 完全 一 致 性 。 

产品 应 用 : MongoDB 的 用 户 包 括 SourceForge, Bitly, Foursquare, GitHub, Shutt- 
erfly、Evite、 纽 约 时 报 、Etsy 和 很 多 其 他 公司 。 

附加 特性 : 支持 MapReduce。 有 一 个 很 简洁 的 Web 界面 ， 可 以 让 你 在 浏览 器 里 使 
用 JavaScript shell 来 尝试 MongoDB。 可 以 在 这 里 访问 : http://try.mongodb.org。 








4.4 Riak 


Riak 是 一 个 基于 Amazon Dynamo 的 混合 型 数据 库 ， 既 是 面向 文档 的 ， 也 是 分 布 式 
键 - 值 存储 的 。Riak 具有 容错 性 ， 可 以 线性 扩展 ， 是 为 互联 网 应 用 而 设计 的 。Riak 


和 


HE 


Cassandra 有 些 相似 ， 也 没有 中 心 控制 器 ， 自 然 也 就 没有 单 点 失效 。 








EL 本 书 已 由 人 民 邮 电 出 版 社 出 版 。 
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Riak 的 设计 中 有 三 个 基本 元 素 : 桶 (bucket) 、 键 、 值 。 数 据 组 织 在 桶 中 ， 桶 大 致 相 
当 于 一 个 平坦 的 命名 空间 ， 用 于 在 逻辑 上 组 织 键 值 对 。 这 和 Google 的 存储 系统 在 设 


计 和 命名 上 都 很 相似 。 


Riak 的 实现 者 Basho Technologies， 同 时 提供 了 商业 版 本 和 开源 版 本 。 
Riak 可 以 在 大 部 分 Unix 类 操作 系统 上 运行 ， 但 不 支持 Windows。 
。 网 站 : http://wiki.basho.com 


。 面向 : 文档 与 键 值 存储 
。 创建 者 : 麻 省 剑桥 的 Basho Technologies， 这 个 公司 由 Akamai 的 架构 师 于 2008 年 





创建 。 


。 实现 语言 : 主要 是 Erlang， 部 分 使 用 C 和 JavaScript 


。 分 布 式 : 是 


。 副本 复制 : 可 以 在 桶 级 设置 副本 复制 机 制 。 

* schema: Riak 是 无 schema 的， 不 使 用 特定 的 数据 类 型 。 和 键 对 应 的 值 是 对 象 。 
所 有 的 数据 以 不 透明 的 BLOB 形式 存储 ， 所 以 可 以 在 Riak 中 存储 任何 类 型 的 数据 。 

。 客户 端 : Riak 提供 了 三 种 主要 的 交互 方式 : JSON/HTTP 的 API，Erlang、Python、 
Java, PHP, JavaScript 和 Ruby 语言 的 驱动 ; 还 有 一 个 Protocol Buffers 客户 端 接口 。 
Protocol Buffers 是 一 个 Google 的 高 速 RPC 项 目 ， 之 前 是 Google 内 部 使 用 的 ， 现 
在 可 以 在 http://code.google.com/p/protobuf/ 访问 。 

e CAP: Riak 和 Cassandra 非常 类 似 ， 这 个 数据 库 也 允许 用 户 来 调整 一 致 性 、 可 用 性 


和 分 区 奈 受 性 的 级 别 





o 


。 产品 应 用 : Riak 的 客户 包括 Comcast 和 Mochi Media, 

。 附加 特性 : Riak 可 以 和 MapReduce/Hadoop 集成 。Riak 的 商业 版 本 称 为 Enterprise 
DS， 还 支持 跨 数 据 中 心 的 同步 (开源 版 本 只 支持 单数 据 中 心 内 同步 )， 拥 有 一 个 
Web 控制 台 ， 并 支持 简单 网 络 管理 协议 (SNMP). 


A.5 图 数据 库 


图 数据 库 是 关系 数据 模型 的 又 一 种 替代 模型 。 你 可 以 把 图 想 成 一 个 网 络 。 图 数据 
库 的 数据 不 是 存储 在 表 或 者 列 里 ， 而 是 使 用 三 个 基本 元 素来 代表 数据 : 市 点 、 边 





和 属性 (property)。 在 








图 数据 库 中 ， 节 点 是 一 个 独立 的 对 象 ， 不 依赖 于 其 他 任何 


东西 ; 边 依赖 于 两 个 节点 ， 属 性 就 是 节点 或 边 的 一 些 属 性 内 容 。 比 如 ， 个 人 节点 
(personal) 可 能 会 有 一 个 姓名 属性 和 一 个 email 属性 。 节 点 和 边 都 可 以 拥有 与 之 关 


联 的 属性 。 


A-1 示意 了 一 个 有 五 个 节点 和 五 条 边 的 图 数据 库 。 边 可 以 描述 多 种 关系 ， 但 在 这 
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个 例子 中 ， 边 只 有 一 个 名 称 属性 。 可 以 看 到 ， 有 一 条 边 是 双向 的 。 例 子 里 的 每 个 市 
点 都 有 一 个 属性 (name)， 但 它们 都 可 以 有 多 种 不 同 附加 属性 。 图 数据 库 的 一 个 很 
好 的 特点 是 它们 是 “白板 友好 的 "， 也 就 是 说 ， 图 数据 模型 看 起 来 和 我 们 把 事物 搬 
到 白板 上 的 样子 很 相像 ， 不 需要 任何 多 余 的 转换 ， 就 可 以 让 数据 符合 数据 库 的 约 
束 条 件 。 
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图 A-1: 图 建 模 关系 


图 数据 库 和 其 他 的 非 关系 型 数据 库 的 不 同 在 于 ， 比 如 键 - 值 存储 ， 在 图 数据 库 中 ， 不 
仅仅 是 市 点 ， 边 也 是 一 等 公民 。 这 就 是 说 ， 尽 管 很 多 我 们 使 用 过 的 编程 语言 和 数据 
库 允 许 表达 一 种 关系 ， 但 这 些 关 系 本 身 都 是 间接 的 (比如 通过 外 部 键 值 或 是 指针 )。 
但 在 图 数据 库 中 ， 关 系 和 市 点 是 平等 的 ， 因 为 市 点 间 的 关系 在 某 些 应 用 场景 中 可 以 
占据 中 心地 位 。 例 如 ， 图 数据 库 在 近年 来 变 得 很 流行 ， 因 为 它们 刚好 适用 于 社交 
网 络 领域 ， 并 可 以 很 好 地 适用 于 Web 2.0 社交 网 络 中 的 各 种 查询 ， 因 为 关系 刚好 就 
是 社交 网 络 的 精髓 所 在 。 图 数据 库 的 第 二 个 重要 的 而 且 处 于 增长 之 中 的 适用 场合 是 
语义 网 络 ， 在 语义 网 络 中 ， 谓 词 和 主语 、 宾 语 在 三 者 具有 同样 的 地 位 ， 构 成 三 位 
一 体 。 

在 过 去 15 年 中 ， 有 两 个 关键 趋势 决定 了 图 数据 库 作 为 一 种 重要 的 数据 存储 形式 的 嘱 
起 。 甚 一 是 数据 在 数量 上 的 增长 ， 甚 二 是 数据 之 间 的 关联 的 增长 ， 这 两 个 趋势 就 使 
得 图 数据 库 成 为 一 个 有 吸引 力 的 选择 。 
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以 图 A-2 所 示 的 简单 的 时 间 线 为 例 。 从 20 世纪 90 年 代 初 开始 ， 文 本 文档 和 相互 链 
接 的 简单 网 页 展示 了 互联 网 的 大 量 内容 。 这 些 文档 是 直接 存储 的 ， 而 且 易 于 使 用 关 
系 型 数据 库 来 生成 。 之 后 在 本 世纪 早期 ，RSS 订阅 、 博 客 和 维基 开始 崛起 ， 自 动 化 
和 引用 链接 的 新 方式 威胁 到 了 关系 模型 。 到 了 2005 年 ，Web 2.0 开始 岂 起 (或 者 按 
照 Sun 的 Jonathan Schwartz 的 定义 ， 称 为 用 户 参 与 的 时 代 ) ， 分 众 、 标 签 云 和 分 类 
开始 走 入 我 们 的 视野 ， 所 有 这 些 既 为 机 器 的 资源 消耗 和 接口 而 优化 ， 也 为 人 们 使 用 
而 优化 。 我 们 开始 不 再 把 网 络 看 做 是 像 一 页 页 的 杂志 那样 ， 通 过 动态 地 从 一 个 关系 
数据 库 取 出 相关 数据 组 织 而 成 ， 现 在， 我 们 觉得 网 络 不 仅 是 一 种 数据 的 表现 方式 ， 
更 是 一 种 概念 的 表达 。 高 速 互联 网 基础 设施 的 逐渐 完善 ， 使 得 社交 网 络 站 点 至 壮 成 
长 。 很 多 人 突然 被 联系 到 了 一 起 ， 互 联网 为 他 们 提供 了 新 的 交互 方式 ， 而 不 仅仅 是 
阅读 。 
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E A-2: 管理 大 规模 数据 的 需求 正在 增加 ， 而 且 还 将 继续 





当 互 联网 开始 构建 重要 的 语义 层 时 ， 伴 随 而 来 的 就 是 数据 量 的 爆炸 ， 这 时 ， 最 大 的 
互联 网 巨头 开始 被 迫 寻 找 关 系 型 数据 库 的 替代 产品 。 一 些 语义 网 络 的 研究 者 和 爱好 
者 最 近 发 表 看 法 认为 ， 我 们 正在 进入 一 个 新 的 Web 3.0 时 代 ， 这 里 ，RDF (资源 描 
述 框架 )、 微 格式 和 本 体 (ontology) 将 支持 起 超 连 结 (superconnected) 的 “数据 
网 络 ”高 家 ， 这 将 是 世界 上 的 所 有 知识 库 构 成 的 一 个 巨大 的 图 。 这 里 ， 图 数据 库 意 
义 更 加 显而易见 ， 因 为 它们 直接 支持 节点 间 的 语义 关系 的 概念 。 

与 许多 面向 文档 的 数据 库 类 似 ， 图 数据 库 一 般 不 要 求 schema 的 形式 ， 它 允许 应 用 
随 着 数据 集 的 增长 和 变化 来 调整 数据 结构 。 因 为 它 不 是 关系 模型 ，join 在 这 里 没有 
必要 ， 图 数据 库 随 着 数据 集 的 增长 ， 可 以 提供 更 高 效 的 查询 。 
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相对 于 RDBMS， 图 数据 库 最 本 质 的 优点 是 没有 所 谓 阻抗 不 匹配 的 问题 ， 你 可 以 把 
对 象 按照 应 用 使 用 它们 的 方式 存储 到 数据 库 中 ， 就 像 白板 上 画 出 它们 一 样 ， 更 为 直 
接 、 易 于 理解 、 轻 松 建 模 。 像 键 - 值 存储 与 面向 文档 的 数据 库 一 样 ， 图 数据 库 允 许 存 
放 半 结构 化 数据 ， 并 自然 地 根据 新 发 现 的 关系 和 属性 来 发 展 schema. 


如 果 你 对 社会 化 网 络 和 语义 网 络 应 用 中 的 图 数据 库 感 兴趣 ， 还 可 以 研究 更 多 在 此 
未 一 一 讨论 的 图 数据 库 ， 包 括 Dex, HypergraphDB, Unfogrid 以 及 VertexDB。 我 
还 建议 你 看 看 http://wiki.github.com/tinkerpop/gremlin 中 的 Gremlin 项 目 。Gremlin 
是 一 个 为 进行 查询 、 图 分 析 和 处 理 图 数据 库 设 计 的 开源 程序 语言 。Gremlin 可 以 从 
Java 虚拟 机 中 运行 ， 它 的 实现 遵从 JSR223。 


这 里 只 介绍 两 种 图 数据 库 ， 但 是 ， 如 果 你 是 一 个 Hadoop 使 用 者 ， 还 可 以 看 看 Hama 
项 目 ， 本 书写 作 时 它 还 是 孵化 器 项 目 。Hama 是 一 个 在 Hadoop 上 构建 的 包 ， 支 
持 大 量 和 矩阵 和 图 数据 。 参 考 这 里 http://incubator.apache.org/hama。Google 还 有 
一 个 称 为 Pregel 的 项 目 ， 他 们 内 部 使 用 这 个 项 目 很 多 年 了 ， 并 且 可 能 会 开放 源 代 
码 。 关 于 Google 的 Pregel 相关 的 信息 可 以 看 这 里 : http://googleresearch.blogspot. 
com/2009/06/large-scale-graph-computing-at-google.html。 
































A.5.1 FlockDB 


2010 年 4 H, Twitter 宣布 他 们 在 GitHub 上 开源 了 新 的 图 数据 库 ， 称 为 FlockDB, 
他 们 创建 了 FlockDB 来 存储 Twitter 中 的 跟随 者 (follower) 的 邻接 列表 ， 这 样 就 可 
以 了 解 到 谁 跟随 了 谁 ， 以 及 谁 封锁 了 谁 。FlockDB 可 以 水 平 扩展 ， 其 设计 应 用 场景 
的 特征 是 : 在 线 的、 低 时 延 和 高 吞 叶 量 。Twitter FlockDB 集群 存储 了 超过 130 亿 条 
边 ， 服 务 峰 值 流量 达到 每 秒 钟 2 万 次 写 操作 和 10 万 次 读 操作 。 











。 网 站 : http://github.com/twitter/flockdb 

。 面向 : 

创建 : 2010 年 由 Twitter 创建 

。 实现 语言 : Scala 

。 授权 方式 : Apache 许可 证 (第 2 版 ) 

。 分 布 化 : 是 

e schema: FlockDB 的 schema 非常 简单 直接 ， 因 为 FlockDB 并 不 想 解 决 所 有 的 数据 
库 问 题 ， 仅 仅 希望 解决 那些 和 Twitter 的 关系 图 与 数据 集 尺 寸 有 关 的 问题 。FlockDB 
的 图 里 包含 的 条 目 有 四 个 属性 : 一 个 源 ID、 一 个 目的 也 、 一 个 位 置 和 一 个 状态 。 

。 客户 端 : FlockDB 使 用 Thrift 0.2 客户 端 ，Twitter 还 写 了 一 个 Ruby 的 前 端 ， 提 供 
了 更 丰富 的 接口 。 
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副本 复制 机 制 : 有 

底层 存储 : MySQL 

产品 应 用 : Twitter 

附加 特性 : FlockDB 允许 快速 对 包含 上 百 万 个 条 目的 查找 结果 集 进行 分 页 ， 支 持 
对 边 进行 归档 和 恢复 操作 。 它 松 耦 合 地 使 用 了 Kestrel， 作 为 可 靠 的 消息 队列 服务 ， 
然后 随机 选择 服务 器 来 写 和 数据， 所 以 没有 服务 器 间 通 信 (没有 和 集群 操作 、 没 有 组 
播 等 ) 。 

















A.5.2 Neo4J 


Neo4J 是 一 个 兼容 ACID 属性 的 图 数据 库 ， 特 别 为 快速 的 图 遍历 而 优化 。 它 支持 事 
务 ， 支 持 JTA/JTS、 两 阶段 提交 、 死 锁 检 测 以 及 MVCC。Neo4J 早 在 2003 年 就 有 产 
品 应 用 了 ， 这 让 它 成 为 了 这 里 比较 老 的 一 个 存储 系统 。 在 一 个 JVM 上 ，Neo4J 可 以 
扩展 到 数 十 亿 个 条 目 (节点 、 边 、 必 性 )。 


Neo4J 可 以 作为 JAR 包 上 赎 入 到 应 用 之 中 ， 很 容易 就 可 以 设置 并 运行 Neo4J， 并 且 可 
以 灵活 地 在 应 用 之 中 使 用 。 








网 站 : http://neo4j.org 
ma: 图 
创建 H Neo Technologies 于 2003 年 创建 ， 并 开始 产品 应 用 。 版 本 1.0 发 布 于 
2010 年 2 月 。 

实现 语言 : Java 

许可 证 : 开源 许可 证 为 AGPLv3， 使 用 商业 许可 证 可 以 获得 更 多 的 特性 。 

分 布 化 : Neo4J 是 半分 布 化 的 ， 可 以 使 用 RMI 进行 远程 通信 。 注 意 : 免费 版 本 的 
Neo4J 是 不 能 分 布 到 多 台 机 器 上 的 。 

schema: Neo4J 是 一 个 由 无 schema 的 节点 、 边 和 可 选 属 性 构成 的 图 。 

客户 端 : 有 多 种 选择 : Neo4J 可 以 作为 一 个 REST 服务 器 来 启动 ， 这 样 就 可 以 
使 用 简单 的 HTTP 操作 、 用 JSON 进行 操作 ;Neo4J] 还 有 一 个 shell 客户 端 界面 。 
Neo4J 有 各 种 语言 的 支持 ， 包 括 Java、Python、Ruby、Clojure、Scala 以 及 PHP。 
可 以 通过 Neo4j.py 来 查看 Jython 和 CPython 接口 ， 通 过 Neo4j.rb 查看 JRuby X 
持 。Neoclipse 是 一 个 Eclipse IDE 的 插件 ， 为 图 提供 了 图 形 化 展现 界面 ， 并 有 一 个 
Grails 的 接口 。 

副本 复制 机 制 : 截止 到 本 书写 作 的 时 候 ，Neo4 的 副本 复制 功能 仍然 在 开发 中 。 它 
的 主 从 副本 复制 的 设计 基于 MySQL 中 使 用 的 副本 复制 机 制 ， 可 以 对 任意 从 实例 写 
数据 ， 锁 协调 和 改变 分 布 机 制 等 则 由 主 实例 控制 。 你 可 以 调节 合适 的 一 致 性 级 别 ， 
通过 要 求 Neo4J 同步 写 到 主 从 节点 上 来 达到 强 一 致 性 ， 也 可 以 在 写 操作 时 使 用 异步 
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传播 到 从 节点 的 方式 ， 通 过 最 终 一 致 性 来 换取 更 好 的 性 能 

。 存储 : 客户 磁盘 存储 

。 产品 应 用 : box.net, ThoughtWorks 

。 附加 特性 : 因为 Neo4 是 图 数据 库 ， 所 以 可 以 很 好 地 应 用 在 语义 网 络 应 用 之 中 。 允 
许 执行 SPARQL 协议 和 RDF 查询 语言 (SPARQL) 与 资源 描述 框架 进行 交互 ， 并 
作为 部 分 的 网 络 本 体 语 言 (OWL) 存储 。 


Neo4J 可 以 和 Apache Lucene/Solr 集成 ， 以 存储 外 部 索引 来 进行 更 快 的 全 局 检索 。 
索引 在 分 布 式 数 据 库 中 可 以 看 做 是 一 个 字典 一 一 从 一 个 键 指 向 一 个 值 的 直接 指针 。 


Neo4J 的 版 本 1.1 将 会 带 有 一 个 事件 框架 。 


A.6 ” 键 - 值 存储 与 分 布 式 哈 希 表 


在 关系 模型 中 ， 我 们 首先 考虑 的 是 ， 域 要 求 使 用 什么 样 的 表 ， 然 后 考虑 如 何 将 表 范 
式 化 ， 来 避免 数据 重复 。 表 、 表 中 定义 的 列 以 及 表 之 间 的 关系 就 是 我 们 的 schema. 


但 是 ， 在 键 - 值 存储 中 ， 通 常 不 需要 预先 定义 这 样 的 shema。 域 在 这 里 成 为 了 桶 ， 
你 可 以 向 桶 中 放 入 数据 项 ， 数 据 项 是 包含 一 组 属性 的 键 值 。 所 有 数据 都 与 键 值 相关 
联 ， 按照 键 值 存储 在 一 起 ， 这 和 关系 型 数据 库 引 以 为 傲 的 范式 化 模型 形成 了 鲜明 的 
对 比 : 数据 常常 是 有 重复 的 。 虽 然 键 - 值 存储 有 一 些 变种 ， 而 且 ， 有 一 些 概念 和 列 数 
据 库 有 些 重合 。 


另 一 个 对 比 关 于 建 模 。 使 用 关系 型 数据 库 工作 时 ， 我 们 倾向 于 仔细 考虑 schema, Wi 
信 我 们 要 问 数 据 库 的 所 有 问题 都 可 以 解答 。 因 为 这 些 问 题 模型 中 是 
次 要 问题 ， 它 们 可 能 会 非常 复杂 。 你 肯定 看 到 过 那些 使 用 了 多 个 join、 子 查询 、 聚 
集 函 数 、 临 时 表 等 的 复杂 SQL 语句 。 但 在 列 状 模型 中 ， 我 们 倾向 于 首先 考虑 查询 ， 
这 些 查 询 帮 助 我 们 决定 了 如 何 设计 桶 。 列 数据 库 中 的 假设 是 ， 为 了 保证 数据 库 可 用 ， 
我 们 需要 数据 副本 ， 因 为 磁盘 空间 很 廉价 ， 所 以 数据 重复 完全 可 以 接受 。 


数据 完整 性 是 另 一 个 差异 点 。 数 据 完整 性 是 指 应 用 中 数据 的 完全 和 一 致 性 的 程度 。 
关系 型 数据 库 具 有 保证 数据 完整 性 的 能 力 ， 比 如 主键 (保证 数据 项 的 完整 性 ) 以 及 
外 部 键 约束 (保证 引用 完整 性 )。 但 在 键 - 值 存储 之 中 ， 保 证 数据 完整 性 的 责任 完全 
交 给 应 用 完成 。 


考虑 一 个 例子 : 你 在 数据 库 中 存储 了 客户 和 订单 信息 。 在 关系 型 数据 库 中 ， 必 须 在 
数据 库 中 定义 引用 键 值 来 允许 join 表 ， 以 及 进行 诸如 查看 一 个 特定 用 户 所 有 订单 这 
样 的 操作 。 虽 然 在 键 - 值 存储 中 也 能 这 么 做 ， 但 通常 不 需要 在 数据 模型 中 定义 任何 关 
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系 信 息 ， 应 用 会 在 用 户 进行 操作 的 时 候 维护 数据 完整 性 ， 比 如 在 决定 删除 某 个 用 户 
的 记录 的 时 候 。 


对 键 - 值 存储 的 一 个 苛 员 在 于 ， 当 需要 扩展 到 数 十 亿 条 记录 的 时 候 就 会 非常 困难 ， 但 
这 种 需求 仅仅 是 在 非常 大 的 社交 网 站 才 会 有 。 对 这 种 情况 的 建议 是 ， 键 - 值 存储 从 本 
质 上 意味 着 应 用 可 以 把 数据 库 看 成 一 个 单一 的 、 庞 大 的 、 可 以 全 局 访问 的 哈 希 表 ， 
这 本 身 就 难于 维护 ， 编 程 效率 也 很 难保 证 。 


如 今 有 很 多 种 可 供 选 择 的 键 值 存 储 ， 包 括 Tokyo Cabinet, ME C539 SimpleDB 以 及 
微软 的 Dynomite。 











A.6.1 亚马逊 的 Dynamo 

Dynamo 是 亚马逊 内 部 使 用 的 键 值 存储 系统 。 虽 然 开 发 者 们 无 法 使 用 这 个 系统 ， 但 
它 仍 然 非 常 值 得 讨论 ， 为 Dynamo 和 Google 的 Bigtable 一 样 ， 都 是 Apache 
Cassandra 的 很 多 设计 决策 的 来 源 。 








2007 年 10 月， 亚马逊 的 CTO Werner Vogels 在 ACM 发 表 了 一 篇 名 为 “Dynamo 
Amazon's Highly Available Key-value Store”( 亚 马 逊 的 高 可 用 键 值 存储 ) 的 白 皮 
书 。 这 篇 论文 现在 还 可 以 在 他 的 博客 “All Things Distributed" (HEA) EER 
到 ， 链 接 为 http://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf。 
这 篇 论文 技术 性 很 强 ， 但 非常 清晰 、 简 洁 ， 并 且 写 得 很 精彩 。 我 将 在 这 里 简单 总 结 
它 的 主要 观点 。 


Dynamo 和 很 多 本 附录 中 描述 的 系统 一 样 ， 诞 生 于 现实 生产 环境 中 的 需求 ， 包 括 持 
续 增 涨 的 性 能 压力 、 服 务 水 平 协议 (SLA) 要 求 、 高 负载 和 节点 故障 下 的 持续 可 用 
要 求 、 各 种 故障 的 平滑 处 理 ， 以 及 水 平 扩展 能 力 。 这 样 ， 遵 照 CAP 理论 ，Dynamo 
和 Cassandra 一 样 ， 是 一 个 高 可 用 和 最 终 一 致 性 系统 。 这 些 系 统 的 故障 处 理 被 认为 
是 一 种 “不 应 该 影响 可 用 性 和 性 能 的 常态 " 。 在 Dynamo 里 ， 这 是 通过 牺 竹 部 分 的 一 
致 性 获得 的 。 


Dynamo 用 于 亚马逊 的 购物 车 ， 当 然 ， 一 致 性 对 于 亚马逊 是 非常 重要 的 。 但 对 于 基 
于 Web 的 购物 车 ， 实 际 并 不 存在 竞争 的 读者 ， 所 以 这 个 折 中 是 比较 值得 的 。 虽 然 一 
致 性 不 是 这 个 系统 的 主要 考虑 焦点 ， 但 它 的 一 致 性 还 是 可 调 的 ， 所 谓 “ 最 终 ” 是 有 
点 用 词 不 当 的 。 

和 Cassandra 一 样 ，Dynamo 的 一 致 性 是 一 个 可 配置 的 属性 ， 它 允许 用 户 来 确定 一 个 


副本 数 ， 响 应 数 必须 要 达到 这 个 副本 数 才 可 以 认为 操作 是 成 功 的 。 要 做 到 这 点 ， 所 
有 副本 之 间 的 通信 是 通过 称 为 “gossip” 的 对 等 通信 协议 (P2P) 来 实现 的 ， 本 书 中 
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已 经 把 这 个 概念 作为 Cassandra 的 本 质 特 征 做 了 深入 的 讨论 。 


Dynamo 架构 的 需求 非常 清晰 。 为 了 支持 高 可 用 的 模型 ,团队 决 定 调 低 一 致 性 “ 旋 
扭 "。 重 复 一 次 ， 这 在 他 们 的 应 用 场景 中 是 完全 可 以 接受 的 。 他 们 还 需要 一 个 非常 易 
于 使 用 的 查询 模型 ， 所 以 数据 使 用 唯一 的 键 值 来 引用 ， 存 储 在 一 个 简单 的 字 节 数组 
里 。 这 就 无 须 使 用 复杂 的 schema 设计 了 ， 也 允许 亚马逊 将 更 多 精力 放 到 他 们 的 主 
要 目标 一 一 低 时 延 和 高 吞吐 性 能 的 优化 上 面 了 。 


要 达到 一 个 可 以 接受 的 一 致 性 级 别 ，Dynamo 必须 实现 某 种 版 本 机 制 ， 以 让 副本 知 
道 ， 哪 个 市 点 有 最 新 (有效) 的 数据 副本 。 它 使 用 了 一 种 称 为 向 量 时 钟 的 机 制 ， 每 
个 进程 维护 一 个 数值 引用 ， 指 向 它 所 知道 的 最 新 事件 。Cassandra 和 Dynamo 在 架构 
上 的 另 一 个 共同 之 处 是 有 提示 切换 。 


本 节 总 结 了 Amazon Dynamo 论文 的 主要 内 容 ， 帮 你 理解 其 架构 目标 和 特性 。 虽 
然 我 非常 推荐 你 阅读 Dynamo 的 论文 ， 但 也 要 注意 ，Cassandra 是 在 走 自己 的 路 ， 
所 以 不 要 理所当然 地 认为 Dynamo 的 一 切 描述 都 适用 于 Cassandra。 人 简单 地 说 ， 
Cassandra 在 一 致 性 和 分 区 耐 受 性 方面 继承 了 Dynamo 的 设计 ， 而 在 数据 模型 方面 则 
基于 Bigtable。 








A.6.2 Voldemortin H 

Voldemort 开始 是 一 个 LinkedIn 的 内 部 项 目 ， 用 于 解决 他 们 所 面 对 的 简单 数据 
在 可 扩展 性 需求 下 的 分 区 问题 ， 与 Cassandra 在 Facebook 启动 的 原因 颇 为 类 似 。 
Voldemort 是 一 个 分 布 式 的 、 极 简单 的 键 - 值 存储 系统 ， 基 于 Amazon 的 Dynamo 和 


Memcached, 














LinkedIn 的 Jay Kreps 提 到 的 性 能 数据 大 约 是 一 个 客户 端 、 一 个 服务 器 的 环境 下 ， 
每 秒 2 万 次 读 操 作 、1.7 万 写 操作 。 


。 网 站 : http://project-voldemort.com 

。 面向 : 键 - 值 存储 

。 创建 : 2008 年 ， 由 LinkedIn 的 数据 与 分 析 团 队 为 解决 应 用 的 实时 性 问题 而 创建 。 

。 实现 语言 : Java 

。 分 布 式 : 是 

。 schema: Voldemort 的 主要 设计 目标 是 高 性 能 与 高 可 用 性 。 所 以 ， 这 个 数据 库 仅 
支持 最 简单 的 schema。 下 面 这 些 是 仅 有 的 查询 方式 : value = store.get (key), 
store.put (key, value) 和 store.dqelete (key) 。 因 为 Voldemort 允许 用 JSON 
指定 schema， 所 以 它 支持 JSON 支持 的 数据 类 型 。 
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。 客户 端 : 和 Cassandra %1, Voldemort 允许 可 插 拔 的 接口 方式 。 按照 Voldemort 





的 网 站 上 的 说 法 ， 它 支持 可 播 拔 的 序列 化 机 制 ， 并 集成 了 Thrift, Avro 和 Google 
Protocol Buffers 的 支持 。 


。 副本 复制 机 制 : 数据 自动 地 在 多 台 服 务 器 间 进 行 副本 复制 ， 这 是 可 配置 的 。 
。 底层 存储 : Voldemort 允许 使 用 可 播 拔 的 磁盘 存储 机 制 ， 可 以 使 用 BerkeleyDB 或 


是 MySQL, 


。 产品 应 用 : LinkedIn 
。 附加 特性 : 可 以 与 Hadoop 一 起 使 用 。 


A.6.3 Redis 
Redis 不 是 一 个 “普通 的 ” 键 - 值 存 储 ， 因 为 它 还 支持 多 种 不 同 数据 结构 的 值 ， 比 如 

















二 进 制 安全 字符 串 〈 不 包含 空格 或 换行 的 字符 串 ) 、 列 表 ， 以 及 二 进 制 安全 字符 串 集 
合 、 有 序 集 合 ， 其 中 有 序 集 合 包含 一 个 用 于 排序 的 浮 点 数 分 数 。 


2010 年 3 H, VMWare F, KA Redis 项 目的 赞助 者 。 





。 网 站 : http;//code.google.com/p/redis 

。 面向 : 键 - 值 存储 

。 创建 : 创建 于 2009 年 

。 实现 语言 : ANSIC 

。 分 布 化 : 没有 分 布 化 和 容错 性 。 

e schema: 键 - 值 存储 ， 使 用 server:key-name 来 存储 与 取出 数据 。 

。 客户 端 ，Redis 支持 多 种 客户 端 ， 通 常 通过 外 部 的 库 ， 支 持 Ruby, Python, Twisted 


Python, Erlang, Tcl, Perl, Lua, Java、Scala、Cloure、C#、C、Haskell， 以 及 
Google 新 的 Go 语言 。 


。 CAP: 最 终 一 致 性 


。 是 否 开 源 : 是 。 托 管 在 Google Code 项 目 中 。 这 里 有 一 个 很 整洁 自 


* vii (4 
F MongoDB 的 教程 )， 提 供 了 一 个 Redis 教程 ， 并 允许 你 直接 在 浏览 器 里 使 用 


JavaScript 来 尝试 Redis。 来 http://try.redis-db.com 尝试 一 下 吧 。 


A.7 列 数据 库 








在 列 数据 库 中 ， 数 据 围绕 列 而 非 行 来 组 织 。 这 样 ， 可 以 对 某 些 应 用 的 负载 更 加 优化 ， 
特别 是 数据 仓库 和 分 析 类 应 用 ， 因 为 它们 在 计算 时 需要 聚集 大 量 的 相似 数据 。 列 数 
据 库 (或 说 面向 列 的 数据 库 ) 特别 适合 那些 对 大 数据 集 进行 查询 的 在 线 分 析 处 理 
(OLAP) 应 用 。 
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为 了 优化 磁盘 空间 和 IO 消耗 的 时 间 ， 在 列 数据 库 里 ， 数 据 存储 的 工作 方式 有 些许 
不 同 。 例 如 ， 列 数据 库 允 许 写 一 条 记录 时 ， 只 写 很 多 列 中 的 一 列 ， 并 且 只 有 这 列 会 
占用 实际 空间 。 这 和 RDBMS 非常 不 同 ， 在 RDBMS 里 ， 空 值 也 不 是 零 开销 的 。 你 
可 以 把 RDBMS 想象 成 一 个 工作 表 ， 每 行 的 同一 列 都 占用 同样 的 空间 ， 为 了 维持 表 
格 数据 结构 的 形状 ， 即 使 没有 东西 也 要 维护 一 个 空 值 在 那 。 这 个 模型 对 列 数据 库 根 
本 就 不 适用 ， 因 为 没有 “ 空 ” 值 存在 。 列 数据 可 以 想象 成 是 标签 : 值 可 以 是 任意 长 
的 ， 并 且 列 的 名 字 和 宽度 都 不 做 预 设 。 


列 数 据 库 经 常 要 求 数据 的 类 型 是 一 致 的 ， 这 样 可 以 更 好 地 进行 数据 压缩 。 


列 数据 库 最 早 大 约 出 现在 20 世纪 70 年 代 早 期 。Sybase IQ 就 是 最 早 的 列 数据 库 之 
一 ， 很 多 年 来 ， 都 只 有 商业 的 列 数据 库 。 


不 过 ， 近 几 年 的 项 目 (主要 是 开源 项 目 ) 才 是 我 们 讨论 的 NoSQL 的 一 部 分 ， 这 些 
数据 库 演进 自 基 本 的 键 - 值 存储 ， 但 拥有 更 为 丰富 的 数据 模型 。 你 可 以 把 这 些 列 数据 
库 看 做 是 多 维 的 键 值 存储 或 哈 希 表 ， 它 们 不 仅 支 持 简单 直接 的 键 值 对 ， 还 允许 使 用 
“ 列 族 ” 这 样 的 数据 模型 来 帮助 组 织 各 列 ， 提 供 更 丰富 的 模型 。 这 些 列 数据 库 包 括 
Google 的 BigTable, HBase, Hypertable 和 Cassandra, 




















Google 的 Bigtable 是 现代 列 数据 库 的 鼻祖 。 它 是 一 个 内 部 自用 的 系统 ， 但 是 Google 
发 表 了 几 篇 论文 来 介绍 它 的 设计 ， 后 面 所 有 讨论 的 列 数据 库 的 实现 都 紧 随 Bigtable 
的 设计 。 就 Cassandra 而 言 ， 它 也 从 Bigtable 继承 了 一 些 关键 理念 。 





A.7.1 Google Bigtable 

在 Google 内 部 ，Bigtable 用 于 用 户 数据 库 ， 它 的 设计 可 以 扩展 到 PB 级 别 。Google 
在 2006 年 发 表 的 论文 《Bigtable: 结构 化 数据 的 分 步 式 存储 系统 》(Bigtable: A 
Distributed Storage System for Structured Data) 中 介绍 了 Bigtable。 在 论文 中 说 明了 
这 个 项 目的 目标 为 :“ 广 泛 适用 、 可 扩展 、 高 性 能 与 高 可 用 。”Bigtable 在 Google 内 
部 作为 底层 存储 ， 使 用 非常 广泛 ， 支 持 了 超过 60 个 项 目 ， 包 括 Gmail, YouTube, 
Google Analytics, Google Finance, Orkut, 个 性 化 搜索 和 Google Earth, Bigtable 
运行 在 Google 文件 系统 (GFS) 之 上 。 


理解 Bigtable 非常 有 意义 ， 至 少 在 某 种 程度 上 ， 因 为 它 的 很 多 特性 和 设计 决策 都 
是 Cassandra 的 蓝本 。 虽 然 Cassandra 在 一 致 性 和 分 区 耐 受 性 方面 是 基于 Amazon 
Dynamo 的 设计 的 ， 但 它 的 数据 模型 和 Bigtable 更 为 接近 。 例 如 ，Cassandra 从 
Bigtable 中 借鉴 (也 有 一 些 修改 ) 了 SSTable、memtable、Bloom filter 和 压 紧 
(compaction) 的 实现 (参考 词汇 表 里 有 这 些 名 词 的 定义 ， 它 们 在 本 书 的 其 他 章节 里 
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有 详尽 的 介绍 )。 从 这 个 角度 看 ，Cassandra EE Dynamo 支持 更 丰富 的 数据 模型 ， 比 
简单 的 键 值 存储 更 为 灵活 和 层次 化 ， 因 为 它 支 持 稀 玻 、 半 结构 化 的 数据 。 








我 强烈 建议 你 阅读 Google Bigtable 的 论文 ， 这 是 一 篇 非常 优秀 的 文章 。 不 
Wa 过 ， 需 要 注意 的 是 ， 虽 然 Cassandra 从 Bigtable 中 拿 来 了 很 多 关键 理念 ， 
两 者 无 论 概 念 还 是 实现 也 不 完全 是 一 一 对 应 的 。 比 如 ，Bigtable 定义 了 主 
从 节点 ， 尽 管 Cassandra 的 数据 模型 和 存储 机 制 是 基于 Bigtable 的 ， 也 有 
很 多 地 方 使 用 了 相同 的 名 词 ， 但 也 并 不 总 是 这 样 。 比 如 ，Bigtable 的 读 
写 与 Cassandra 的 实现 接近 但 不 一 样 ，Bigtable 定义 了 Tablet 结构 ， 但 在 
Cassandra 里 没有 严格 一 致 的 体现 ， 等 等 。 你 可 以 在 http://labs.google.com/ 
papers/bigtable.html 找到 Bigtable 的 论文 。 














Cassandra 在 很 多 地 方 和 Bigtable 有 差别 ， 但 是 ， 两 者 重要 的 差别 在 于 Cassandra 
使 用 了 无 中 心 的 模型 。 在 Bigtable 里 ， 主 节点 使 用 Chubby 永久 分 布 式 锁 机 制 来 控 
制 操 作 ， 而 在 Cassandra 中 ， 所 有 的 节点 都 是 平等 的 ， 没 有 中 心 控制 ， 使 用 一 个 
gossip 模型 来 互相 通信 。 


Bigtable 依赖 于 一 个 称 为 Chubby 的 分 布 式 锁 服 务 ， 它 用 Chubby 做 几 件 事情 : 保证 
任何 时 候 至 少 有 一 个 主 节 点 的 副本 可 用 ， 管 理 服务 器 的 系统 引导 、 发 现 和 死亡 ， 存 
储 schema 信息 。 





网 站 : 无 ， 但 可 以 在 http://tables.googlelabs.com 查看 一 个 相关 的 项 目 ， 称 为 Google 
Fusion Tables, 

面向 : 列 

IÆ: Google 从 2004 年 开始 Bigtable 的 开发 ， 论 文 发 表 于 2006 年 。 

实现 语言 : C++ 

分 布 化 : 是 

底层 存储 : Google 文件 系统 〈GFS ) 。 文 件 分 割 为 64 MB 的 分 块 ， 通常 只 以 追加 的 
方式 写 文 件 ， 以 提供 最 好 的 吞吐 量 。GFS 有 一 个 根本 原则 ， 文 件 系统 必须 运行 在 
大 量 廉价 的 普通 服务 器 上 , 随时 可 能 会 出 错 , 因此 必须 能 够 在 这 种 场景 实现 可 用 性 。 
GFS 有 两 类 服务 器 : 一 个 主 节 点 和 很 多 数据 块 服务 器 (chunkserver)。chunkserver 
存储 数据 块 文件 ， 主 节点 则 用 来 存储 所 有 关于 数据 块 的 元 数据 ， 包 括 数据 的 存储 位 
置 等 。 显然， 在 存储 方面 ，Cassaandra 5 Bigtable 有 很 多 不 同 ， 因 为 Cassandra 里 ， 
所 有 市 点 都 是 地 位 相同 的 ， 没 有 主 节 点 对 环 做 中 心 控 制 。 

schema: Bigtable 的 数据 模型 是 一 个 稀 玻 、 分 布 化 、 多 维 的 有 序 映射 。 允 许 用 户 
存储 比 亚 马 还 SimpleDB 更 为 丰富 的 数据 ， 因 为 它 支持 列表 类 型 。 这 个 映射 使 用 行 
键 值 、 列 键 值 和 时 间 惟 进行 索 引 | ， 值 本 身 是 无 解释 的 字 节 数组 类 型 。 
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。 客户 端 : C++， 查 询 有 时 也 可 以 使 用 一 个 Google 内 部 开发 的 脚本 语言 Sawzall。 
最 初 Sawzall API 不 支持 向 数据 库 写 值 ， 但 可 以 进行 数据 过 滤 、 转 换 和 汇总 。 
MapReduce 既 可 以 从 Bigtable 输出 数据 也 可 以 输入 到 Bigtable 中 。 

。 是 否 开源 : 6 

。 附加 特性 : 虽然 你 无 法 直接 使 用 Bigtable， 但 可 以 通过 在 Google App Engine 创建 
应 用 来 间接 使 用 它 。Bigtable 在 设计 时 就 考虑 了 用 于 MapReduce 的 算法 。Bigtable 
有 好 几 个 克隆 产品 ， 而 Hadoop 是 一 个 MapReduce 的 开源 实现 。 




















A.7.2 HBase 


HBase 是 Google Bigtable 的 一 个 克隆 ， 最 早 是 和 Hadoop 一 起 使 用 的 (实际 上 ， 起 
初 是 Apache Hadoop 项 目的 一 个 子 项 目 )。 与 Google 的 Bigtable 底层 使 用 GFS 类 
似 ，HBase 为 Hadoop 提供 数据 库 能 力 ， 人 允许 使 用 它 作 为 MapReduce 任务 的 数据 
源 和 输出 目的 。 与 其 他 的 提供 最 终 一 致 性 的 列 数据 库 不 同 ，HBase 是 强 一 致 性 的 
系统 。 








值得 一 提 的 是 ， 微 软 也 是 HBase 的 一 个 贡献 者 ， 因 为 他 们 收购 了 Powerset。 


。 网 站 : http;//hbase.apache.org 

。 面向 : 列 

。 创建 者 : Powerset 在 2007 年 创建 了 HBase， 其 后 捐 给 了 Apache. 

。 实现 语言 : Java 

。 分 布 化 : 是 。 可 以 单独 运行 HBase， 或 伪 分 布 化 ， 或 是 使 用 完全 分 布 化 模式 。 伪 分 
布 化 模式 意味 着 运行 多 个 运行 在 同一 台 服 务 器 上 的 HBase 实例 。 

。 底层 存储 : HBase 构建 在 Hadoop 分 布 式 文件 系统 之 上 ， 类 似 于 Bigtable, 

e schema: HBase 支持 非 结 构 化 和 部 分 结构 化 数据 。 要 支持 这 些 数据 结构 ，HBase 
用 列 族 (这 个 概念 同样 出 现在 对 Apache Cassandra 的 讨论 中 ) 来 组 织 数 据 。 可 以 使 
用 行 键 值 、 列 族 、 单 元 限定 符 和 时 间 惟 来 录 址 一 个 单独 的 记录 ， 在 HBase 里 称 为 
“单元 (cell)", 5 RDBMS 不 同 ， 在 RDBMS 之 中 ， 必 须 预先 定义 好 表 结 构 ， 而 
HBase 允许 只 定义 一 个 列 族 ， 然 后 单元 限定 符 可 以 在 运行 时 决定 。 这 让 应 用 可 以 非 
常 灵活， 并 支持 采用 敏捷 式 开发 方法 。 

。 客户 端 : 可 以 使 用 Thrift、RESTful 网 关 、Protobuf (参见 下 面 的 附加 特性 ) 或 一 个 
可 扩展 的 JRuby shell 和 HBase 交互 。 

。 是 否 开 源 : 是 (Apache 许可 证 ) 

。 产品 应 用 : Adobe 从 2008 年 开始 使 用 HBase。Hbase 的 用 户 还 包括 : Twitter, 
Maholo, StumbleUpon, Ning, Hulu, World Lingo, FN 尼 的 Detikcom 以 及 
Yahoo。 
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。 附加 特性 : 因为 HBase 是 Hadoop 项 目的 一 部 分 ， 它 和 Hadoop 的 结合 非常 密切 。 
因为 有 一 整套 的 便利 类 ， 所 以 如 果 你 希望 使 用 HBase 作为 存储 系统 ， 并 在 上 面 运 
行 MapReduce 任务 ， 这 非常 方便 。 








HBase 的 运行 需要 依赖 于 Zookeeper。Zookeeper 也 是 Hadoop 项 目的 一 部 分 ， 是 
一 个 用 于 维护 配置 信息 、 在 集群 的 节点 间 提 供 分 布 式 同步 机 制 的 中 心服 务 。 虽 然 
HBase 使 用 Zookeeper 会 增加 外 部 依赖 ， 但 这 让 集群 的 维护 更 加 简单 ， 而 且 简 化 了 
HBase 的 核心 代码 。 


你 还 可 以 使 用 Google 的 Protobuf (Protocol Buffer) API 代替 XML 来 访问 HBase。 
Protobuf 是 一 种 非常 高 效 的 数据 序列 化 方法 。 相 同 的 数据 ， 它 可 以 压缩 到 XML 的 
一 半 到 三 分 之 一 ， 比 XML 解析 要 快 20-100 倍 ， 因 为 protocol buffer 的 在 写 入 的 时 
候 进 行 编码 。 使 用 Protobuf 可 以 让 HBase 工作 非常 快 。Protobuf 在 Google 内 部 使 
用 非常 广泛 ， 他 们 使 用 Protobuf 在 不 同 的 系统 之 间 传 输 接近 五 万 种 不 同 消 息 类 型 。 
可 以 从 Google Code 中 访问 这 个 项 目 http://code.google.com/p/protobuf。 











HBase 提供 了 一 个 基于 Web 的 控制 台 用 户 界面 ， 可 以 用 于 监控 管理 区 域 服 务 器 
(region server) 和 主 服务 器 。 


A.7.3 Hypertable 


Hypertable 也 是 一 个 Google Bigtable 的 克隆 ， 和 HBase 非常 相似 。 项 目的 发 起 公 
司 Zvents 使 用 着 这 个 系统 ， 每 天 写 入 的 数据 超过 10 亿 个 单元 。Hypertable 的 底 
层 分 布 式 文件 系统 是 HDFS 或 Kosmos (KFS)。Hypertable 使 用 多 版 本 并 发 控制 
(MVCC), ， 人 允许 用 户 事务 在 私有 的 内 存 空 间 中 执行 ， 直 到 事务 提交 之 后 才 对 其 他 客 
户 端 可 读 。 








与 Cassandra 和 其 他 Bigtable 的 衍生 项 目 类 似 ，Hypertable 使 用 Bloom filter 和 
commit log 来 最 小 化 磁盘 访问 、 提 高 性 能 。 


Hypertable 非常 适 于 分 析 型 应 用 和 处 理 。 和 其 他 非 关 系 型 解决 方案 不 同 ，Hypertable 
不 常用 于 网 站 的 后 端 。 





。 网 站 : http:Wwww.hypertable.org 

。 面向 : 列 

。 创建 者 ， Hypertable 项 目 由 Zvents 于 2007 年 2 月 启动 。 
。 实现 语言 : C 

。 分 布 化 : 是 

。 开源 : 是 
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e schema: Hypertable 的 数据 存储 在 一 个 多 维 表 中 ， 可 以 看 做 是 一 个 统一 有 序 的 键 - 
值 对 列表 。 数 据 的 键 本 质 上 是 四 维 键 值 〈 行 、 列 族 、 列 限定 符 和 时 间 惟 ) 的 连接 。 

。 客户 端 : 主要 通过 C++ Thrift API 交互 (Cassandra 也 是 用 Thrift， 并 正在 转向 
Avro), 4 X f$ Java, Python, Ruby, PHP, Perl, Erlang, Haskell, C#, Perl 和 
Ocaml 语言 。 

。 附加 特性 : Hypertable 有 自己 的 查询 语言 ， 称 为 Hypertable 查询 语言 (HQL)。 
HQL 基于 SQL 的 模型 ， 可 以 使 用 你 所 熟悉 的 方法 来 进行 查询 ， 比 如 select * 
from QueryLogByTimestamp WHERE ROW -^'2010-03-27 17:05';。 这 个 查 
询 看 起 来 和 SQL 非常 类 似 ,但 格式 略 有 不 同 。 比 如 “^=” 操 作 符 的 意思 是 “以 …… 
开头 




















与 Voldemort 和 Cassandra (至 少 是 换 用 Avro 之 前 ) 类 似 ，Hypertable 的 客户 端 序 
列 化 也 使 用 Thrift API。 


A.8 多 持久 化 存储 系统 


本 附录 里 ， 我 们 已 经 接触 到 了 很 多 风格 的 持久 化 存储 ， 有 一 个 突出 的 情况 是 : 每 个 
都 适用 于 解决 一 类 特定 的 问题 ， 或 特别 擅长 某 一 方面 ， 不 擅长 其 他 方面 。 你 可 能 
经 听 说 了 “多 语言 编程 ”这 个 概念 ， 这 很 大 程度 上 归功 于 Neal Ford。 多 语言 编程 
的 理念 是 ， 不 同 的 编程 语言 擅长 不 同 的 事情 ， 你 可 以 将 多 个 编程 语言 用 在 同一 个 解 
决 方案 中 ， 来 最 大 化 收益 。http://polyglotprogramming.com 的 Dean Wampler 举 了 
Emacs 的 压倒 性 成 功 作为 例子 ， 说 明 多 语言 编程 的 好 处 : Emacs 中 ， 使 用 C 开发 内 
核 ， 使 它 更 快速 ， 也 使 用 Lisp 的 一 个 脚本 语言 变种 Emacs Lisp (ELisp)， 让 它 更 易 
于 扩展 。 多 语言 编程 作为 一 个 概念 ， 在 过 去 几 年 中 已 经 有 很 多 先行 者 开始 实践 了 。 
我 们 经 常 听 说 有 些 大 的 网 络 应 用 的 不 同 部 分 使 用 Scala, Ruby 和 PHP 写成 。 比 如 ， 
根据 最 近 的 消息 ，eBay 的 架构 主要 是 使 用 Java， 但 搜索 引擎 是 使 用 C++ 的 。 


我 认为 ， 在 持久 化 存储 方面 我 们 可 能 面临 类 似 的 趋势 。NoSQL 的 崛起 开始 对 传统 发 
起 挑战 一 一 曾几何时 ， 我 们 认为 RDBMS 可 以 面 对 所 有 任务 ， 因 为 我 们 只 有 它 。 也 
有 些 NoSQL 提倡 者 建议 ， 用 一 个 或 多 个 NoSQL 来 取代 RDBMS 。 但 我 到 更 乐意 见 
到 多 持久 化 存储 系统 的 解决 方案 ， 或 者 说 ， 在 一 个 应 用 里 ， 使 用 不 同 的 数据 存储 系 
统 来 完成 不 同 的 任务 。 在 这 个 愿景 下 ， 关 系 型 数据 库 将 会 和 非 关 系 型 数据 库 共生 ， 
它们 会 共同 出 现在 模块 化 、 面 向 服务 的 应 用 中 ， 每 个 都 执行 它们 最 适 于 做 的 工作 。 





A.9 小 结 
在 前 面 的 章节 中 ， 我 们 快速 浏览 了 多 种 非 关系 型 数据 库 ， 希 望 给 出 恰当 的 背景 来 了 
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fif Cassandra 在 NoSQL 发 展 中 的 地 位 。 目 的 在 于 了 解 近年 来 各 种 产业 是 如 何 考 虚数 
据 的 ， 比 较 这 些 系 统 ， 以 了 解 更 广泛 的 理论 基础 。 


为 了 了 解 关 系 型 数据 库 的 替代 产品 ， 我 们 还 了 解 了 很 多 近年 来 育 现 的 所 谓 NoSQL 
系统 。 这 些 数据 库 ， 具 有 不 同 的 形式 、 以 不 同 的 方式 来 应 对 着 正在 增长 的 “互联 网 
规模 的 ” 诲 量 数据 处 理 的 需求 。 浏 览 这 些 产品 的 另 一 个 目的 是 解释 NoSQL 数据 库 
存在 的 原因 ， 虽 然 很 多 反对 者 和 业界 的 专家 都 对 NoSQL 颇 有 微 词 ， 但 已 经 有 很 多 
大 公司 在 面 对 强 烈 的 数据 需求 时 采纳 了 这 些 NoSQL 数据 库 ， 他 们 不 只 是 款式 新 颖 
的 “花瓶 ”。 他 们 的 基础 来 自 于 业界 最 杰出 的 关于 数据 可 扩展 性 的 理念 ， 有 些 理 念 已 
经 存在 了 数 十 年 了 。 并 且 ， 虽 然 这 些 系统 有 时 还 有 一 些 〈 非 常 公开 的 ) 问题 ， 但 关 
系 型 数据 库 也 是 如 此 。 


所 以 ， 本 书 之 中 ， 我 的 目的 不 是 说 服 你 抛弃 所 有 的 关系 型 数据 库 ， 并 立刻 用 新 方式 
来 取代 它们 。 我 只 是 想 帮助 你 理解 这 些 关 系 型 数据 库 禁 代 产 品 的 优 缺 点 ， 并 深入 了 
解 Cassandra， 这 样 ， 当 你 面临 下 一 个 数据 问题 时 ， 可 以 直接 回来 ， 并 选择 最 合适 的 
工具 ， 而 非 默认 的 工具 来 应 对 。 
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Tg] iL 


难以 置信 ， ARAMEA- KEAR, AXUDgRREREGAE "RAS. 
Peter, & X (.E3EE— 4 x) 


词汇 表 里 给 出 了 一 些 使 用 Cassandra 时 非常 有 必要 了 解 的 概念 定义 。 在 http://wiki. 
apache.org/cassandra 确实 有 不 少 有 用 的 材料 ， 不 过 第 一 次 看 它们 也 确实 很 量 ， 因 为 
每 个 新 名 词 都 需要 更 多 的 新 名 词 来 解释 。 ee die Web 开发 者 
和 数据 库 管理 员 都 十 分 生 誉 ， 这 里 为 了 便于 参考 一 并 给 出 。 词 汇 表 里 很 多 信息 重复 
或 扩展 了 本 书 中 相关 章节 的 内 容 。 


1. 3 (Anti-Entropy) ! 

X Ag LR I SIS]. AE Cassandra 为 保证 不 同市 点 上 的 数据 副本 都 可 以 更 新 到 最 
新 版 本 而 采用 的 机 制 。 

这 里 解释 一 下 逆 炉 的 工作 方式 。 在 主 压 紧 (参见 压 紧 ) 过 程 中 ,服务器 发 起 
TreeRequest/TreeResponse 会 话 ， 来 和 相 邻 节点 交换 Merkle 树 。Merkle 树 是 一 个 列 
族 数据 的 哈 希 表示 。 如 果 市 点 间 的 树 不 匹配 ， 它 们 就 会 重新 协商 (或 修复 ) 数据 ， 
以 确定 它们 应 该 把 最 终 数据 确定 为 什么 。 树 比较 验证 是 org.apache.cassanádra. 
Service.AntiEntropyService 类 负责 的 。 AntiEntropyService 类 实现 了 单 
例 模 式 ， 并 定义 了 Differencer 静态 类 。 这 个 类 用 于 比较 两 棵 树 ， 如 果 发 现任 何 
差异 ， 都 会 对 有 差异 的 区 间 发 起 修复 过 程 。 


亚马逊 的 Dynamo H} [E FH. T 3E A PL il, Cassandra 采用 了 Dynamo 的 模型 (参考 
Dynamo 论文 的 4.7 市 )。 




















译注 1: 因为 词汇 表 是 字母 排序 的 ， 为 便于 查找 ， 这 里 所 有 词汇 都 保留 英文 原 词 了 。 
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在 Dynamo 之 中 ， 它 们 使 用 了 Merkle Bi 3 3c Fe 3X dej BL (参见 Merkle 树 )。 
Cassandra 也 是 如 此 ， 但 两 者 实现 略 有 不 同 ， 在 Cassandra 之 中 ， 每 个 列 族 有 它 自 己 
的 Merkle 树 ， 在 主 压 紧 过 程 中 ， 这 个 树 作为 一 个 快照 而 创建 出 来 ， 生 存 期 到 发 送 给 
环 上 的 邻居 节点 为 止 。 这 样 的 实现 可 以 节省 很 多 磁盘 UO, 


对 于 如 何 修复 数据 ， 可 以 参见 读 时 修复 。 








2. 异步 写 
异步 写 (asynchronous write) 在 文档 和 邮件 列表 里 有 时 简写 为 Async Write, 


Cassandra X & fii Hl f ExecutorService 和 Future<T> 这 类 java.util.concu- 


rrent 库 的 组 件 来 把 数据 写 向 缓 冲 区 o 


3. Avro 

Avro (可 能 ) 正在 取代 Thrift 成 为 与 Cassandra 进行 交互 的 RPC 客户 端 。Avro 是 
Apache Hadoop 的 一 个 子 项 目 *， 由 Hadoop 和 Lucene 的 创立 者 Doug Cutting 创建 。 
Avro 的 功能 类 似 于 Thrift， 但 它 是 动态 数据 序列 化 库 ， 相 对 于 Thrift 来 说 ， 具 有 不 
需要 静态 生成 的 优点 。 另 一 个 迁移 向 Avro 的 原因 是 ，Thrift 最 早 是 一 个 Facebook 
创立 的 项 目 ， 之 后 捐 给 了 Apache， 再 之 后 就 没有 什么 积极 的 开发 活动 了 。 


这 个 迁移 意味 着 Cassandra 服务 器 将 从 org.apache.cassandra.thrift.Cass- 
andraServer 迁移 到 org.apache.cassandra.avro.CassandraServer。 在 本 


书写 作 的 时 候 ， 这 个 迁移 尚 在 进行 中 ， 还 没有 完成 。 
你 可 以 从 Avro 的 官方 主页 了 解 更 多 的 信息 : http://avro.apache.org。 


4. Bigtable 

Bigtable 是 Google 于 2006 年 开发 的 面向 列 的 高 性 能 分 布 式 数据 库 系统 ， 构 建 在 
Google 文件 系统 (GFS) ZE. Cassandra 直接 继承 自 Bigtable 和 亚马逊 的 Dynamo, 
Cassandra 从 Bigtable 继承 了 很 多 东西 ， 如 稀 玻 数组 和 使 用 SSTable 存储 数据 。 





Yahoo! 的 HBase 是 Bigtable 的 一 个 克隆 。 
可 以 从 这 里 http:Wlabs.google.com/papers/bigtable.html 读 到 Bigtable 的 完整 论文 。 


5. Bloom filter 

简单 地 说 ，Bloom filter 是 一 个 非常 快 的 用 于 判断 一 个 元 素 是 否 属于 一 个 集合 的 非 确 
定性 算法 。 因 为 这 个 算法 可 能 会 返回 假 阳 性 值 ， 所 以 是 不 确定 性 的 ， 当 然 ， 它 不 会 
返回 假 阴 性 值 。Bloom filter 的 工作 方式 是 将 一 个 数据 集 的 值 映射 到 一 个 位 数组 ， 或 











译注 2: Avro 已 经 从 Hadoop“ 毕 业 ”， 成 为 顶级 的 Apache 项 目 了 。 
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是 把 一 个 更 大 的 数据 集 映 射 到 一 个 摘要 字符 串 中 。 按 照 定 义 ， 这 个 摘要 会 使 用 一 块 
相对 于 原始 数据 量 很 小 的 内 存 来 构成 。 


Cassandra 在 键 值 查询 时 使 用 Bloom filter， 以 此 减少 代价 高 昂 的 磁盘 访问 。 每 个 
SSTable 都 有 一 个 与 之 相关 联 的 Bloom filter， 当 进行 查询 时 ， 会 在 访问 硬盘 之 前 查 
询 Bloom filter。 因 为 Bloom filter 不 会 返回 假 了 明 性 结果 ， 所 以 ， 只 要 过 滤器 报告 说 
集合 里 没有 某 元 素 存在 ， 那 就 一 定 不 存在 。 而 如 果 过 滤器 说 元 素 存在 ， 那 要 再 进行 
磁盘 访问 ， 确 定 是 否 真 的 存在 。 


虽然 可 能 出 现 假 阳性 结论 算是 一 个 缺点 ， 但 Bloom filter 的 优点 就 是 它们 确实 飞快 ， 
因为 它 的 空间 效率 很 高 ， 它 (不 像 简 单 的 数组 、 哈 希 表 或 链表 一 样 ) 无 需 存 储 所 有 
的 元 素 。Bloom filter 主要 使 用 内 存 ， 这 样 会 减少 很 多 磁盘 访问 。 这 样 的 一 个 结果 就 
是 ， 假 阳性 值 的 数量 会 随 着 元 素数 量 增加 而 增加 。 


在 Apache Hadoop, Google 的 Bigtable 和 Squid 代理 服务 器 缓存 中 ， 都 有 Bloom 
filter 的 应 用 。Bloom filter 是 以 其 发 明 人 Burton Bloom 命名 的 。 








6. Cassandra 


在 希腊 神话 之 中 ，Cassandra ( 卡 珊 德 拉 ) 是 特洛伊 国王 普 利 阿 摩 斯 和 王后 赫 卡 柏 
的 女儿 。 因 为 她 非常 漂亮 ,阿波 罗 神 给 了 她 预知 未 来 的 能 力 。 但 当 她 拒绝 了 阿波 
罗 的 挑逗 之 后 ， 他 诅咒 了 她 ， 从 此 她 仍然 可 以 准确 预言 任何 将 要 发 生 的 事情 ， 但 
没有 人 会 相信 她 的 话 。Cassandra 预见 了 她 的 城市 特洛伊 的 履 灭 ， 但 却 无 力 阻止。 
Cassandra 分 布 式 数据 库 用 她 命名 。 


Cassandra 存储 系统 是 一 个 Apache 项 目 ， 主 页 位 于 http:Wcassandra.apache.org。 该 
项 目 2009 年 1 月 成 为 了 一 个 孵化 器 项 目 。 它 的 关键 特征 包括 无 中 心 、 弹 性 、 容 错 、 
可 调 一 致 、 高 度 可 用 ， 是 为 在 跨越 数据 中 心 的 大 量 普通 服务 器 上 存储 超大 规模 数据 
而 设计 的 。 它 被 用 于 Digg. Facebook, Twitter, Cloudkick, Cisco, IBM, Reddit, 
Rackspace、SimpleGeo、Ooyala、OpenX 等 公司 中 。 


Cassandra 最 初 由 Facebook 开发 ， 用 于 解决 他 们 的 收 件 箱 搜 索 问 题 。 开 发 团队 由 
Jeff Hammerbacher 领导 ， 核 心 工 程 师 包括 Avinash Lakshman、Karthik Ranganathan 
和 搜索 团队 的 Prashant Malik, 2008 4E 7 H, JW H 83 (C 82 F Ji $8] Google Code 
E. 2009 4£ 3 月 成 为 了 Apache 的 孵化 器 项 目 ， 次 年 2 月 17 日 ， 通 过 投票 成 为 了 
Apache 顶级 项 目 。 


Facebook 的 Lakshman 和 Malik 写 了 一 篇 名 为 “一 种 无 中 心 结 构 化 存储 系统 ”的 论 
文 ， 介 绍 了 Cassandra 的 核心 内 容 。 目 前 这 篇 论文 可 以 在 http://www.cs.cornell.edu/ 
projects/ladis2009/papers/lakshman-ladis2009.pdf 找到 , 
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Avinash Lakshman 还 在 2008 年 写 过 一 篇 博客 ， 描 述 他 们 在 Facebook 如 何 使 用 
Cassandra: http://www.facebook.com/note.php?note 1d-224413138919&id2944554719 
9&index-9, 


很 容易 明白 Cassandra 数据 库 为 什么 如 此 命名 : 它 的 支持 者 确信 ，Cassandra 和 其 他 
相关 的 NoSQL 数据 库 就 是 数据 库 的 未 来 。 尽 管 最 终 一 致 性 被 广泛 地 使 用 在 很 多 公 
aj, AOLE, Google, Facebook 以 及 Twitter， 但 仍 有 很 多 人 对 这 个 模型 心 存 
敌意 。 据 推测 ， 将 数据 库 用 希腊 神话 中 的 先知 来 命名 也 是 对 Oracle (希腊 神话 中 的 
"ma ) 数据 库 开 的 一 个 玩笑 。 

Ran Tavory 开发 的 Java 客户 端 Hector 是 用 Cassandra 的 兄弟 命名 的 。 


7. Chiton 


在 古 希 腊 ，Chiton 是 一 种 服装 ， 通 常 是 无 宰 的 ， 男 女 缘 可 。Brandon Williams 用 
Chiton 命名 了 他 开发 的 一 个 开源 项 目 ， 这 个 项 目 是 一 个 基于 Python GTK 的 Apache 
Cassandra 浏览 器 。 目 前 托管 于 http://github.com/driftx/chiton。 


与 此 相关 的 一 个 开源 项 目 ， 是 用 Twisted Python 写 的 Cassandra 底层 客户 端 API 项 
H Telephus。 这 个 项 目 目前 托管 在 http://github.com/driftx/Telephus。 








8. 集群 (cluster) 
集群 就 是 两 个 或 多 个 Cassandra 实例 同 台 献 艺 。 这 些 实例 使 用 Gossip 协议 相互 通信 。 
新 配置 一 个 实例 来 引入 到 集群 中 时 ， 需 要 先 做 一 些 准备 工作 。 首 先 准备 一 个 种 子 节 


点 ， 之 后 指定 两 个 要 监听 的 端口 : Gossip fü Thrift 接口 。 集 群 配置 好 了 之 后 ， 可 以 
使 用 node tool 来 验证 设置 是 否 正确 。 


9. 列 (column) 

列 是 Cassandra 数据 模型 中 的 最 基本 的 数据 表示 单位 。 一 列 是 一 个 三 元 组 ， 包 括 名 
(有 时 也 称 为 “ 键 值 ") 、 值 和 时 间 惟 。 一 个 列 的 值 和 时 间 戳 都 是 由 客户 端 提 供 的 。 列 
名 和 值 的 数据 类 型 都 是 Java 的 字 节 数组 。 时 间 改 的 数据 类 型 是 基本 类 型 1ong。 为 
了 避免 多 线程 问题 ， 列 是 不 可 变 的 。 

列 组 织 在 列 族 之 中 。 


Cassandra 中 的 列 由 接口 org.apache.cassandra.db.IColumn 定义， 其 中 定义 
的 操作 包括 读 取 byte [] 类 型 的 值 或 读 取 Collection«rColumns 类 型 的 子 列 ， 还 
有 查询 最 近 修 改 的 时 间 。 


列 会 按照 它们 的 类 型 来 排序 ， 包 括 AsciiType. BytesType. LexicalUUID- 
Type、LongType、TimeUUIDType、UTF8Type。 人 参见 列 族 。 
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10. 列 族 (column family) 
列 族 的 地 位 大 致 相当 于 关系 型 模型 中 的 表 。 它 是 容纳 一 组 有 序 的 列 的 容器 。 


因为 每 个 列 族 都 存储 在 单独 的 文件 中 ， 所 以 ， 最 好 把 一 次 查询 需要 的 数据 放 在 同一 
个 列 族 里 。 


你 要 在 Cassandra 的 配置 文件 中 定义 列 族 。 还 可 以 提供 全 局 (每 个 keyspace 的 ) 值 
用 于 行 缓 存 尺 寸 、 键 缓存 尺寸 以 及 读 时 修复 率 。 列 族 可 以 是 下 列 两 种 类 型 之 一 : 


standard 或 super。 


参见 列 、Keyspace、 超 级 列 。 


11. 列 名 (column name) 
一 行 中 存储 的 名 / 值 对 的 “名 ” 那 部 分 。 


12. 列 值 (column value) 
一 行 中 存储 的 名 / 值 对 的 “ 值 ” 那 部 分 。 列 值 的 尺寸 会 受到 主机 内 存 的 限制 。 


13. commit log 


commit log 用 于 所 有 的 Cassandra 写 操 作 。 当 进行 一 个 写 操作 时 ， 首 先 就 会 进入 到 
commit log 之 中 ， 这 样 ， 即 使 发 生 故 障 也 不 会 丢失 数据 ， 之 后 ， 值 送 入 memtable, 
这 样 可 以 通过 内 存 查询 ， 以 便 获 得 较 高 性 能 。 一 旦 memtable 满 了 ， 数 据 就 会 刷 写 
入 SSTable 文件 之 中 。 





文 项 工作 由 org.apache.cassandra.db.commitlog.CommitLog 类 负责 ， 每 
次 写 或 删除 操作 ， 变 更 会 以 RowMutation 对 象 的 形式 序列 化 并 追加 写 到 commit 
log 之 中 。 这 些 对 象 组 织 为 commit log 段 。 在 默认 情况 下 ，commit log 的 尺寸 达到 
128 MB 的 冰 值 就 会 滚动 一 次 ， 这 时 会 建立 一 个 新 的 commit log 文件 ， 接 收 写 操作 。 
这 项 设置 是 可 调 的 。 


14. 压 紧 (compaction) 

压 紧 是 通过 合并 大 的 累积 数据 文件 的 方式 来 释放 空间 的 过 程 。 这 个 过 程 大 致 相当 于 
关系 型 世界 中 的 表 重 建 。 在 压 紧 过 程 中 ， 合 并 的 数据 会 被 排序 ， 并 创建 新 的 索引 文 
件 ， 而 且 新 合并 、 排 序 并 加 索引 的 数据 会 写 到 一 个 新 文件 中 。 


在 压 紧 期 间 进行 的 释放 空间 的 操作 包括 合并 键 值 、 和 并 列 、 删 除 幕 碑 。 这 个 过 程 
由 org.apache.cassandra.db.CompactionManager 类 f 责 。 Compaction- 


Manager 实现 了 一 个 MBean 接口 ， 所 以 它 是 支持 内 省 的 。 
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Cassandra 中 有 几 种 不 同类 型 的 压 紧 操作 。 


主 压 紧 有 两 种 触发 方式 : 通过 节点 侦 测 或 是 自动 进行 。 节 点 侦 测 会 各 目标 节点 的 相 
邻 节点 发 送 一 个 TreeReques 消息 。 当 一 个 节点 收 到 TreeRequest 消息 之 后 ， 会 立刻 
进行 一 次 只 读 压 紧 ， 甚 目的 是 验证 列 族 的 数据 。 只 读 压 紧 包 含 如 下 几 步 。 


C) 获取 列 族 中 的 键 值 分 布 。 

(2) 行 数据 加 入 到 验证 器 中 之 后 ， 如 果 列 族 需 要 验证 ， 就 会 创建 Merkle 树 ， 并 广播 
到 周边 节点 。 

(3) Merkle 树 们 放 在 一 起 ， 作 为 一 个 Differencers (需要 验证 或 比较 的 树 ) 的 列表 
发 送 。 

(4) 比较 过 程 由 StageManager 类 进行 ， 这 个 类 负责 管理 执行 任务 时 的 并 发 问 
题 。 在 压 紧 时 ，stageManager 使 用 一 个 逆 精 阶段 。 它 使 用 org.apache. 
cassandra.concurrent.JMXEnabledThreadPoolExecutor 类 ， 在 一 个 单线 


程 内 执行 压 紧 程 序 ， 并 使 这 个 操作 可 以 作为 一 个 MBean， 支 持 内 省 机 制 。 




















15. 压缩 (compression) 
返回 值 压缩 是 一 个 未 来 版 中 的 特性 ， 但 0.6 还 不 支持 。 


16. 一 致 性 (consistency) 

一 致 性 意味 着 一 个 事务 不 会 让 数据 库 进 入 不 合法 状态 ， 不 会 违反 完整 性 约束 。 一 致 
性 是 关系 型 数据 库 里 的 事务 的 关键 方面 ， 是 ACID 属性 [原子 性 (atomic) 、 一 致 性 
(consistent), PE EE (isolated) 和 持久 性 (durable)] 之 一 。 在 Cassandra 中 的 一 
致 性 程度 可 以 如 下 衡量 : 


N = 存放 数据 副本 的 节点 数 

W = 在 写 操作 成 功 返 回 之 前 必须 确认 写 入 成功 的 副本 数 
R = 在 读 操 作 访问 数据 对 象 时 ， 需 要 获得 的 最 少 副 本 数 
W+R>N= 强 一 致 性 

W +R < N = 最终 一 致 性 





17. 一 致 性 级 别 (consistency level) 

Cassandra 的 配置 允许 你 决定 在 读 写 操作 过 程 中 ， 集 群 中 多 少 个 副本 给 出 确认 或 响应 
可 以 判定 操作 是 成 功 的 。 一 致 性 级 别 是 基于 配置 文件 中 指定 的 副本 因子 的 ， 而 不 是 
系统 中 的 节点 总 数 。 

有 多 个 可 选 的 一 致 性 级 别 可 以 用 来 进行 性 能 调 优 。 最 高 性 能 的 级 别 ， 一 致 性 级 别 也 
最 低 。 对 于 读 写 来 说 ， 它 们 的 含义 有 所 不 同 。 这 在 第 7 章 中 进行 了 详细 介绍 。 
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对 于 写 操作 ， 


ZERO: 写 操作 将 会 在 一 个 后 台 线 程 中 异步 完成 ， 无 法 确保 写 操作 一 定 成 功 。 这 是 
写 数据 最 快 的 方式 ， 但 对 于 操作 成 功 的 保障 也 最 少 。 

ANY: 这 个 级 别 是 在 Cassandra 0.6 中 引入 的 ， 意 味 着 你 可 以 确信 数据 至 少 已 经 写 
到 一 个 节点 上 了 ， 即 使 是 一 个 提示 (参考 提示 移交 ) 也 被 看 做 是 一 个 成 功 的 写 入 。 
这 也 是 一 种 相对 弱 的 一 致 性 级 别 。 

ONE: 保证 在 返回 时 ， 数 据 至 少 已 经 写 入 到 一 个 节点 的 commit log 和 memtable 之 
中 了 。 如 果 有 一 个 节点 响应 ， 这 个 操作 就 被 认为 是 成 功 的 。 

QUORUM: 一 定数 量 的 节点 可 以 就 一 个 操作 达成 一 致 。 数 量 定 为 副本 因子 /2+1。 
所 以 ， 如 果 副 本 因子 是 10， 那 么 有 6 个 副本 确认 操作 成 功 就 可 以 达到 法 定数 量 。 
DCQUORUM: 选举 (quorum) 的 一 个 版 本 , 由 同一 个 数据 中 心里 的 副本 进行 投票 ， 
在 选举 的 高 一 致 性 和 在 一 个 数据 中 心 的 副本 间 进 行 操作 的 低 延 时 之 间 进 行 平衡 。 
ALL: 保证 在 返回 时 副本 因子 指定 数量 的 节点 都 接收 到 数据 了 。 如 果 某 个 副本 对 写 
操作 无 响应 ， 则 写 操作 会 失败 。 这 个 级 别 有 最 高 的 一 致 性 和 最 差 的 性 能 。 























对 于 读 操作 ， 


ONE: 当 第 一 个 节点 响应 时 ， 立 刻 返 回 该 响应 的 值 。 在 后 台 进 行 读 时 修复 。 
QUORUM: 查询 所 有 节点 。 当 一 部 分 副本 〈 副 本 因子 /2+1) 返回 的 时 候 ， 把 时 间 
惟 最 新 的 值 返 回 客户 端 。 

DCQUORUM: 只 保证 同一 个 数据 中 心 的 节点 被 查询 到 。 仅 当 使 用 机 架 感 知 副 本 放 
置 策略 时 可 用 。 

ALL: 查询 所 有 节点 ， 并 把 时 间 改 最 新 的 记录 返回 给 客户 端 。 这 个 级 别 会 等 待 所 有 
节点 响应 。 如 果 有 任何 节点 没有 响应 ， 读 操作 都 会 失败 。 


注意 ， 读 操作 没有 ZERO 这 个 一 致 性 级 别 ， 因 为 在 读数 据 时 不 要 求 任何 节点 响应 是 
没有 意义 的 。 


18. 





数据 中 心 分 片 策略 (data center shard strategy) 


参考 副本 策略 。 


19. 无 中 心 (decentralized) 
Cassandra 是 无 中 心 的 ， 因 为 它 设 有 定义 主 服务 器 ， 而 是 使 用 对 等 方式 ， 从 而 避免 了 


Y, 


颈 和 单 点 失效 。 无 中 心 对 于 Cassandra 非常 重要 ， 因 为 这 样 就 可 以 更 容易 地 提高 


或 降低 集群 规模 ， 节 点 可 以 随时 进入 退出 集群 ， 而 不 影响 集群 运行 。 
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20. 反 范 式 化 (denormalization) 

在 关系 型 数据 库 中 ， 有 时 候 会 采用 反 范 式 化 或 创建 兄 余数 据 ， 以 改善 读 密集 型 应 用 
的 性 能 ， 如 在 线 分 析 处 理 (OLAP) 应 用 。 而 在 Cassandra 之 中 ， 反 范式 化 数据 更 是 
一 种 典型 情况 ， 因 为 这 样 可 以 改善 性 能 ， 并 使 数据 结构 服务 于 查询 的 需要 ， 从 而 和 
标准 关系 型 数据 库 划 请 界限 ， 关 系 型 数据 库 的 数据 结构 通常 是 根据 独立 的 对 象 模型 
设计 的 。 





























21. 持久 性 (durability) 

数据 库 的 持久 性 意味 着 写 操 作 会 永久 生效 ， 即 使 服务 器 崩溃 或 突然 断 电 也 是 如 此 。 
Cassandra 通过 在 commit log 后 面 进行 追加 写 来 达到 持久 性 。 这 样 就 允许 服务 器 避 
免 数 据 文件 中 定位 的 次 数 。 只 有 commit log 需要 同步 写 入 ， 对 于 周期 性 或 批 处 理 的 
commit log 都 是 如 此 。 

当 使 用 一 个 单 服务 节点 时 ，Cassandra 并 不 立刻 让 存储 服务 的 核心 状态 和 文件 同步 。 
这 意味 着 如 果 服 务 器 在 写 操作 之 后 马上 关机 ， 当 服务 器 重启 后 ， 写 的 结果 可 能 就 不 
会 出 现 了 。 注 意 ， 单 服务 器 节点 不 建议 使 用 在 生产 环境 中 。 


参考 Commit Log. 




















22. Dynamo 

2006 年 由 亚马逊 开发 ，Dynamo 和 Google 的 Bigtable 都 是 Cassandra 的 主要 设计 基 
fill; Cassandra 从 Dynamo 继承 了 键 - 值 存 储 、 对 称 的 对 等 架构 、 基 于 gossip 的 节点 
发 现 、 最 终 一 致 性 以 及 每 次 操作 可 调 的 一 致 性 。 

你 可 以 在 http://www.allthingsdistributed.com/2007/10/amazons, dynamo.html 阅读 这 
篇 完整 论文 :“Dynamo: 亚马逊 的 高 可 用 键 值 存 储 ”。 





23. 弹性 (elastic ) 
读 写 吞吐 量 可 以 随 着 集群 中 机 器 数量 的 增加 而 线性 增长 。 


24. 最 终 一 致 性 (eventual consistency ) 

一 致 性 是 一 种 描述 数据 在 一 个 更 新 操作 之 后 的 内 部 完整 性 的 属性 。 在 强 一 致 性 数据 
库 中 ， 这 意味 着 一 旦 客户 端 完 成 一 个 写 操作 ， 所 有 读者 都 可 以 立刻 看 到 新 值 。 在 最 
终 一 致 性 系统 中 ， 数 据 库 一 般 不 会 立刻 达到 一 致 状态 ， 但 最 终 会 达到 (这 里 的 “最 
终 ” 实 际 也 就 是 毫秒 级 的 时 间 ， 它 会 利用 这 点 时 间 将 新 值 送 到 所 有 副本 ， 有 具体 时 间 
与 数据 量 、 节 点 数 和 节点 的 地 理 分 布 特性 有 关 )。DNS 就 是 一 个 流行 的 最 终 一 致 性 
架构 的 例子 。 最 终 一 致 性 有 时 也 称 为 “ 弱 一 致 性 ”。 














268 | 词汇 表 


最 终 一 致 性 在 过 去 几 年 越 来 越 流 行 ， 因 为 它 可 以 支持 极 高 的 可 扩展 性 。 虽 然 传统 的 
完整 一 致 性 数据 库 也 能 够 达到 很 高 的 扩展 性 ， 但 管理 开销 会 很 难 负担 。 当 然 ， 最 终 
一 致 性 也 有 一 些 缺 点 ， 比 如 编程 模型 会 变 得 更 复杂 。 


虽然 Cassandra 的 最 终 一 致 性 设计 是 基于 亚马逊 的 Dynamo 的 设计 的 ， 但 Cassandra 
可 能 更 应 该 称 为 “可 调 ” 一 致 性 ， 而 不 是 纯粹 的 最 终 一 致 性 。 这 是 因为 Cassandra 
允许 你 在 一 个 范围 内 配置 一 致 性 级 别 ， 甚 至 可 以 要 求 Cassandra 在 所 有 副本 都 可 读 
之 前 阻塞 住 操作 (这 也 就 是 完全 一 致 性 )。 


其 他 最 终 一 致 性 数据 存储 系统 还 包括 Riak, Voldemort, MongoDB, Yahoo! 的 
HBase、CouchDB、 微 软 的 Dynomite 和 亚马逊 的 SimpleDB fll Dynamo, 














25. 故障 检测 (failure detection) 

故障 检测 是 在 分 布 式 容错 系统 中 ， 判 断 哪个 节点 发 生 了 故障 的 过 程 。Cassandra 的 故 
障 检测 基于 一 个 增 量 故 障 检测 算法 。 这 种 故障 检测 机 制 是 在 2004 年 由 日 本 先进 科学 
技术 研究 所 首先 提出 的 。 增 量 故 障 检测 基于 两 个 基本 思路 : 第 一 个 思路 是 ， 故 障 检 
测 应 该 是 灵活 的 ， 这 通过 将 算法 与 进行 监测 的 应 用 解 耦 来 实现 ， 第 二 个 思路 是 ， 根 
据 对 节点 发 生 故 障 的 确信 程度 ， 输 出 一 个 连续 变化 的 “嫌疑 ”级 别 ， 这 种 方法 的 优 
点 是 ， 它 将 网 络 环境 的 波动 性 考虑 在 内 了 。 嫌 疑 级 别 会 基于 观测 (心跳 的 采样 ) 来 
得 出 一 个 更 加 连续 的 、 具 有 前 摄 性 的 指示 来 判断 或 强 或 弱 的 故障 的 可 能 性 ， 而 不 是 
一 个 简单 的 死活 断言 。 




















Cassandra 中 的 故障 检测 在 org.apache.cassandra.gms.FailureDetector 类 
中 实现 。 

可 以 在 http://ddg.jaist.ac.jp/pub/HDY+04.pdf 阅读 Naohiro Hayashibara 等 人 的 Phi 增 
量 故 障 检测 的 论文 。 


26. 容错 性 (fault tolerance) 

容错 性 是 指 一 个 系统 在 它 的 一 个 或 多 个 组 件 发 生 故障 的 情况 下 ， 可 以 继续 提供 服务 
的 能 力 。 容 错 性 还 可 以 看 做 是 平滑 降 质 过 程 ， 也 就 是 说 ， 如 果 系 统 服务 性 能 在 故障 
后 发 生 下 降 ， 也 只 会 和 故障 组 件 相关 。 





27. gossip 


gossiper 负责 保障 集群 中 的 所 有 节点 都 能 得 到 其 他 节点 的 重要 状态 信息 。gossiper 每 
秒 运行 一 次 ， 来 保证 即使 是 故障 或 没有 在 线 的 节点 也 能 第 一 时 间 收 到 节点 状态 信息 。 
它 的 工作 被 设计 为 可 预测 的 ， 即 使 负载 迅速 增加 也 是 如 此 。gossip 协议 用 来 支持 节 
点 间 的 键 值 再 均衡 和 故障 检测 机 制 。 而 且 ，gossip BÆ ic RAE — 1 38 EET 











词汇 表 | 269 


gossiper 以 键 值 对 的 形式 传播 信息 ，gossip 协议 会 持续 给 其 他 节点 传播 状态 信息 ， 
直到 这 些 信息 被 新 信息 替代 。 


当 一 个 服务 节点 启动 后 ， 它 会 把 自己 注册 到 gossiper。 更 多 的 信息 可 以 查看 org. 


apache.cassandra.service.StorageService 类 。 








还 可 以 参考 这 篇 亚马逊 关于 gossip 的 论文 : http://www.cs.cornell.edu/home/rvr/ 
papers/flowgossip.pdf。 


28. Hector 

由 Outbrain 的 Ran Tavory 创立 的 一 个 开源 项 目 ， 托 管 在 GitHub, Hector 是 一 个 用 
Java 语言 写 的 Cassandra 客户 端 。 它 封装 了 Thrift， 提供 了 JMX、 连 接 池 和 故障 恢 
复 功 能 。 





29. 提示 移交 (hinted handoff) 

这 是 一 个 保证 可 用 性 、 容 错 性 和 平滑 降 质 的 机 制 。 如 果 一 个 写 请 求 到 达 Cassandra, 
但 是 负责 这 部 分 数据 的 节点 却 由 于 网 络 分 裂 、 硬 件 故 障 或 其 他 原因 而 不 可 用 ， 就 
会 创建 一 个 消息 “提示 ”， 并 交 给 “移交 ” 另 一 个 活着 的 节点 ， 并 请 它 在 不 可 用 节 
点 恢复 时 重新 进行 写 操 作 。 这 有 两 个 好 处 : 减少 了 一 个 节点 由 于 下 线 而 恢复 错过 
的 信息 所 用 的 时 间 ， 并 在 弱 一 致 性 级 别 中 提高 了 写 性 能 。 注 意 ， 提 示 移 交 在 ONE, 
QUORUM, ALL 这 些 一 致 性 级 别 看 来 并 不 当做 是 一 个 合格 的 写 操作 的 确认 。 但 在 
一 致 性 级 别 ANY 中 ， 提 示 确 实 当 做 一 个 成 功 的 写 操作 。 换 句 话说， 提示 写 对 它们 
自己 本 身 不 可 读 。 

接收 提示 的 节点 将 会 在 节点 恢复 在 线 后 ， 通 过 gossip 很 快 获 知 。 如 果 由 于 某 种 原 
因 ， 提 示 移 交 无 法 进行 ， 系 统 还 可 以 进行 读 时 修复 。 


30. 键 值 (key) 
参考 行 键 值 。 











31. keyspace 


keyspace 是 列 族 的 容器 ， 大 致 对 应 于 关系 模型 中 的 数据 库 ， 在 Cassandra 中 用 于 
分 不 同 的 应 用 。 关 系数 据 库 中 ， 数 据 库 是 表 的 集合 ， 而 keyspace 则 是 列 族 的 有 序 
集合 。 可 以 在 Cassandra 的 配置 文件 中 定义 keyspace， 或 用 API 的 定义 方法 来 定 
义 它们 。 当 定义 一 个 keyspace 时 ， 同 时 还 要 指定 副本 因子 和 副本 放置 策略 。 在 一 
个 Cassandra 集群 中 ， 可 以 有 一 个 或 多 个 keyspace， 典 型 情况 是 每 个 应 用 有 一 个 
keyspace。 


sl 








参见 列 族 。 
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32. 字典 序 (lexicographic ordering) 
字典 序 是 两 个 有 序 笛 卡 儿 集 乘积 的 自然 CERE) 排序 方式 。 


33. memtable 


新 近 写 入 数据 的 内 存 表达 形式 。 一 旦 memtable 写 满 ， 就 会 被 刷 写 到 硬盘 之 中 ， 成 为 
一 个 SSTable。 


34. Merkle 树 

Merkle 树 又 称 为 “ 哈 希 树 ”。 它 的 数据 结构 是 一 个 二 又 树 ， 对 于 表示 大 数据 集 的 简短 
摘要 。 在 一 个 哈 希 树 里 ， 叶 子 节 点 是 要 进行 摘要 的 数据 块 (通常 是 文件 系统 中 的 文 
件 )。 树 中 的 每 个 父 节 点 都 是 它 的 直接 子 节点 的 哈 希 ， 这 可 以 紧密 压 紧 摘要 信息 




















Cassandra 中 ，Merkle 树 由 org.apache.cassandra.utilsMerkleTree 类 实现 。 


在 Cassandra 中 ，Merkle 树 用 于 保证 对 等 网 络 中 市 点 收 到 的 数据 块 是 未 被 修改 和 
破坏 的 。 它 们 还 用 于 加 密 和 验证 文件 和 数据 传输 的 内 容 ，Merkle 树 还 用 于 Google 
Wave 产品 之 中 。Merkle 树 得 名 于 其 发 明 者 Ralph Merkle, 


35. Multiget 
通过 列 名 查询 一 组 键 值 。 


36. Multiget Slice 
查询 一 组 键 值 的 一 个 子 集 的 列 。 


37. 节点 (node) 


一 个 Cassandra 实例 。 通 常 一 个 Cassandra 集群 会 有 很 多 节点 ， 有 时， 它们 作为 一 个 
整体 称 为 一 个 节点 环 ， 或 者 直接 叫做 “ 环 ”。 节 点 可 以 指 集群 中 的 任意 Cassandra 服 
务 器 ， 而 “副本 ”(replica) 则 特 指 拥 有 其 他 节点 某 些 数据 的 副本 的 节点 


38. Node tool 


这 是 指 可 执行 文件 bin/nodetool， 用 于 检测 集群 的 配置 是 否 合理 ， 并 可 以 进行 其 他 
各 种 维护 操作 。nodetool 的 命令 包括 cleanup. clearsnapshot, compact, 
cfstats, decommission, drain, flush, info, loadbalance, move, 


repair, ring. snapshot[snapshotname], removetoken 和 tpstats。 


比如 ， 你 可 以 使 用 nodetool drain 来 阻止 commit log 接收 新 的 写 操作 。 
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39. NoSQL 

“NoSQL” 这 个 名 词 ， 用 来 描述 一 些 不 使 用 SQL 或 关系 模型 的 数据 库 。 有 时 解释 为 
“Not Only SQL”， 用 来 指出 非 关系 型 数据 库 的 鼓吹 者 并 不 认为 关系 型 数据 库 是 个 坏 
主意 ， 相 反 ， 只 是 它们 不 是 唯一 的 数据 存储 的 选择 而 已 。 这 个 名 词 是 Rackspace 的 
Cassandra 追随 者 Eric Evans 造 出 来 的 ， 不 过 ， 他 本 人 更 愿意 使 用 另 一 个 名 词 “Big 
Data" (海量 数据 ) 来 彰显 一 个 事实 ， 就 是 这 类 非 关 系 型 数据 库 并 非 是 因为 不 是 什么 
(SQL 的 实现 ) 而 定义 的 ， 而 是 因为 它们 能 做 什么 〈 处 理 海 量 数据 负载 ) 而 定义 在 
一 起 的 。 在 我 看 来 ， 这 个 名 词 已 经 差不多 到 了 它 命运 的 终点 了 ， 因 为 它 过 于 容易 混 
消 了 。 它 试图 把 各 种 有 不 尽 相 同 的 目标 、 设 计 决 策 和 特性 的 数据 库 放 到 一 起 来 讨论 。 
还 是 让 Cassandra 是 Cassandra, ik CouchDB 是 CouchDB, ilk Riak Æ Riak "E, 




















40. 有 序 分 区 器 (Order-Preserving Partitioner) 

这 是 一 类 按照 键 值 顺序 存放 行 的 分 区 器 ， 将 数据 物理 结构 按照 排序 方式 对 齐 。 将 列 
族 配 置 为 有 序 分 区 器 允许 使 用 区 间 切 片 ， 这 样 Cassandra 就 可 以 知道 哪个 键 值 放 在 
哪个 节点 上 。 


这 种 分 区 器 不 同 于 随机 分 区 器 ， 它 的 优点 是 可 以 提供 更 有 效率 的 区 间 查 询 ， 但 是 缺 
点 是 键 值 分 布 不 均匀 。 





有 序 分 区 器 (OPP) 由 org.apache.cassandra.dht.OrderPreservingPartitioner 
有 一 种 特殊 的 OPP 称 为 配 页 有 序 分 区 器 (COPP)。 它 与 普通 OPP 非常 类 似 ， 但 数 


据 信 息 是 按照 En/US 字典 序 方式 排序 的 ， 而 不 是 字 节 序 。 因 此 ， 它 对 于 区 域 设置 相 
关 的 应 用 可 能 有 用 。 























COPP 由 org.apache.cassandra.dht.CollatingOrderPreservingPartitioner 


41. 分 区 (partition ) 

作为 一 个 通用 名 词 ， 分 区 指 网 络 分 裂 ， 是 将 一 个 网 络 分 断 ， 使 得 一 个 机 器 无 法 和 另 
一 个 直接 通信 。 分 区 可 能 由 交换 机 、 路 由 器 或 是 网 口 的 故障 导致。 考虑 一 个 有 五 台 
机 器 的 集群 { A, B, C, D,E }， 其 中 (A, B) 在 一 个 子 网 上 ，{C, D, E] 在 另 一 个 子 网 
上 。 如 果 连 接 两 个 子 网 的 交换 机 发 生 了 故障 ， 那 么 就 发 生 了 一 个 网 络 分 区 ， 隔 离 出 
了 两 个 子 集群 (A, B] 和 (C, D, E). 
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Cassandra 是 一 个 具有 容错 性 的 数据 库 ， 网 络 分 区 也 是 一 种 考虑 在 内 的 故障 。 因 此 ， 
即使 发 生 了 网 络 故 障 ， 它 也 可 以 继续 服务 ， 并 当 分 区 故障 回复 后 合并 数据 。 








42. 分 区 器 (partitioner) 

分 区 器 控制 数据 在 节点 间 如 何 分 布 。 要 找到 一 组 数据 ，Cassandra 必须 知道 哪个 节点 
存储 着 要 查找 的 范围 的 值 。 有 三 种 分 区 器 : 随机 分 区 器 (这 是 默认 分 区 器 )， 有 序 分 
区 器 和 配 页 有 序 分 区 器 。 你 可 以 在 storage-conf.xml 或 cassandra.yaml (对 于 0.7 版 
A) 文件 中 的 <Partitioner> 元 素 配 置 分 区 器 : <Partitioner>org.apache. 
cassandra.dht .Randompartitioner</Partitioner>。 注 意 : 分 区 器 的 选择 不 


影响 列 的 排序 ， 只 影响 行 键 值 的 排序 。 


一 旦 选择 了 分 区 器 的 类 型 ,就 无 法 在 不 破坏 数据 的 情况 下 改变 分 区 器 (因为 
SSTable 是 不 可 修改 的 ) 。 参 考 有 序 分 区 器 和 随机 分 区 器 。 




















43. 选举 (quorum) 
多 数 节点 响应 了 一 个 操作 。 这 是 一 个 可 选 的 一 致 性 级 别 。 在 选举 读 中 ， 代 理 节 点 会 
等 待 大 多 数 节 点 给 出 相同 的 值 。 这 会 让 读 操作 慢 一 些 ， 但 会 保证 不 会 得 到 过 期 的 数据 。 





44. 机 架 感 知 策略 (Rack-Aware Strategy) 
参见 副本 放置 策略 。 


45. 随机 分 区 器 (random partitioner) 


随机 分 区 器 使 用 BigIntegerToken 存放 MD5 哈 希 值 ， 通 过 哈 希 值 来 决定 键 值 放 
在 环 上 的 具体 位 置 。 这 样 做 的 好 处 是 ， 可 以 让 键 值 很 均匀 地 分 布 到 集群 中 ， 不 足 在 
于 区 间 查 询 的 效率 不 高 。 它 是 默认 的 分 区 器 。 


参见 分 区 器 和 有 序 分 区 器 。 








46. 区 间 切 片 (range slice) 
查询 一 个 键 值 区 间 的 列 的 子 集 。 


47. 读 时 修复 (read repair) 

这 也 是 一 种 保障 环 上 数据 一 致 性 的 机 制 。 在 读 操作 时 ， 如 果 Cassandra 发 现 某 些 节 
点 响应 的 数据 和 其 他 节点 的 处 于 不 一 致 状态 ， 会 在 旧 节 点 上 进行 读 时 修复 操作 。 读 
时 修复 意味 着 Cassandra 会 对 那个 节点 上 的 旧 数 据 发 起 一 次 写 请 求 ， 使 用 之 前 读 请 
求 得 到 的 最 新 数据 更 新 它 。 这 会 从 节点 上 取出 所 有 数据 进行 合并 ， 然 后 将 合并 的 数 
据 写 回 到 不 同步 的 节点 上 。 数 据 一 致 性 检查 是 通过 比较 时 间 惟 以 及 校 验 和 进行 的 。 
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进行 数据 修复 的 方法 来 自 org.apache.cassandra.streaming 包 。 


48. 副本 机 制 (replication ) 

在 一 般 分 布 式 系统 中 ， 副 本 机 制 指 将 数据 的 多 个 副本 保存 在 多 个 机 器 上 ， 这 样 如 果 
有 一 台 机 器 出 现 故 障 或 由 于 网 络 分 区 不 可 用 ， 集 群 中 仍然 有 可 用 数据 。 缓 存 是 一 个 
简单 的 副本 机 制 的 形式 。 在 Cassandra 中 ， 副 本 机 制 是 一 种 提供 高 性 能 、 可 用 性 与 
容错 性 的 手段 。 





49. 副本 因子 (replication factor) 

Cassandra 提供 了 一 个 可 配置 的 副本 因子 ， 人 允许 你 决定 希望 付出 多 少 性 能 来 获得 更 高 
的 一 致 性 。 也 就 是 说 ， 读 写 一 致 性 级 别 都 要 基于 副本 因子 ， 它 是 在 集群 中 拥有 的 数 
据 副 本 的 数量 。 副 本 因子 可 以 通过 配置 文件 和 API 进行 设置 。 


参见 一 致 性 级 别 。 








50. 副本 策略 (replication strategy) 

副本 策略 有 时 候 也 叫 放 置 策略 ， 决 定 了 副本 的 分 布 方式 。 第 一 个 副本 总 会 放 在 拥有 
对 应 这 块 键 值 区 间 令 牌 的 节点 。 其 余 的 副本 依据 可 配置 的 副本 放置 策略 在 集群 中 
分 布 。 


Cassandra 使 用 了 “四 人 帮 ” 的 策略 模式 ， 允 许可 置换 的 副本 放置 策略 。Cassandra 
提供 了 三 种 可 用 的 策略 。 选 择 合适 的 策略 很 重要 ， 因 为 确定 了 哪个 节点 负责 什么 键 
值 范 围 ， 也 就 决定 了 哪个 节点 需要 接收 写 操作 ， 这 会 对 不 同 场景 下 的 效率 有 重大 影 
响 。 不 同 的 可 置换 策略 提供 了 很 大 的 灵活 性 ， 你 可 以 根据 网 络 拓扑 和 需求 来 调整 策 
Wt. 

















副本 放置 策略 都 扩展 自 org.apache.cassandra.locator.AbstractReplica- 
tionStrategy 抽象 类 。 如 果 你 愿意 扩展 这 个 类 ， 也 可 以 实现 自己 的 副本 放置 策略 。 











副本 放置 策略 是 keyspace 的 属性 ， 通 过 «ReplicaPlacementStrategy- 元 素 配 
置 。 它 们 在 第 6 章 进行 了 深入 的 讨论 。 








51. 行 (row) 

在 列 族 中 ， 一 行 是 一 个 有 序 映 射 ， 以 列 名 为 键 值 ， 列 值 为 值 。 对 于 超级 列 族 ， 一 行 
是 一 个 超级 列 名 到 值 的 映射 ， 其 中 的 值 又 是 子 列 名 到 子 列 值 的 映射 。 行 键 值 是 每 行 
唯一 的 标识 ， 每 行 包含 了 列 的 名 / 值 对 。 单 一 行 的 大 小 不 能 超过 磁盘 空间 的 限制 。 
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了 通过 分 区 器 进行 排序 ， 分 区 器 的 可 能 类 型 包括 随机 分 区 器 、 有 序 分 区 器 和 配 页 有 


52. 行 键 值 (row key) 
有 时 简称 为 “ 键 值 ”， 行 键 值 类 似 于 关系 模型 中 一 个 对 象 的 主键 。 它 代表 了 标识 一 行 
的 所 有 列 的 方法 ， 是 一 个 任意 长 字符 串 。 


在 Thrift 接口 中 ，Java 客户 端 总 是 假设 行 键 值 是 UTF-8 编码 的 ， 但 是 对 其 他 语言 的 
客户 端 并 非 如 此 ， 可 能 需要 手工 将 ASCII 字符 串 编码 为 UTF-8。 


53. SEDA 


Cassandra 采用 了 SEDA (分 阶段 事件 驱动 架构 ， Staged Event-Driven Architecture) 
来 在 高 并 发 的 情况 下 获得 更 大 的 吞吐 能 力 。SEDA 试图 消除 线程 相关 的 过 度 开销 。 
这 些 开销 是 由 于 调度 、 锁 竞争 和 缓存 不 命中 造成 的 。SEDA 中 ， 一 个 任务 并 不 会 始 
终 在 同一 个 线程 中 ， 这 可 能 会 让 代码 更 复杂 一 些 ， 但 是 会 产生 更 好 的 性 能 。 因 此 ， 
Cassandra 中 的 很 多 关键 工作 ， 比 如 读 、 修 改 、gossip、memtable 刷 写 和 压 紧 都 是 作 
为 一 个 阶段 (SEDA 中 的 S) 来 进行 的 。 一 个 阶段 本 质 上 说 是 一 个 独立 的 事件 队列 。 


当 事 件 到 达 进 入 队列 ， 应 用 提供 的 事件 管理 器 会 被 调用 。 控 制 器 能 够 为 每 个 阶段 根 
据 需 求 动态 地 调整 线程 数量 。SEDA 的 优势 在 于 更 高 的 并 发 性 和 更 好 的 CPU, R 
和 网 络 资源 的 管理 。 











你 可 以 通过 Matt Welsh, David Culler 和 Eric Brewer 的 位 于 http://www.eecs.harvard. 
edu/~mdw/proj/seda 的 原文 来 了 解 更 多 关于 SEDA 的 信息 。 


参见 阶段 。 


54. 种 子 节点 (seed node) 

种 子 节点 是 一 个 已 经 在 Cassandra 集群 中 的 节点 ， 用 于 帮助 新 加 入 的 节点 获取 数据 
并 开始 运行 。 新 加 入 的 节点 在 开始 会 和 种 子 节点 进行 gossip 通信 ， 获 取 状 态 信 息 ， 
了 解 节 点 环 的 拓扑 。 集 群 中 可 以 有 多 个 种 子 。 





55. YA (slice) 


这 是 一 种 读 查 询 。 使 用 get_slice() 通过 一 组 列 名 或 一 个 列 名 区 间 进 行 
Hl get range slice O0 返回 一 个 区 间 的 键 值 的 一 个 子 集 列 。 


2d 


E 


Wy. fE 
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56. Snitch 

Snitch 是 Cassandra 将 节点 映射 到 网 络 中 的 物理 位 置 的 方法 。 它 帮助 判断 节点 相对 
于 其 他 节点 的 位 置 ， 以 便 发 现 和 保证 有 效 地 路 由 请 求 。 有 几 种 不 同类 型 的 Snitch, 
比如 ，Endpointsnitch (XX RackInferringsSnitch) 可 以 判断 两 个 节点 是 否 在 
同一 个 数据 中 心 或 是 否 在 同一 个 机 架 。 这 个 策略 是 通过 它们 的 IP 地 址 的 第 二 和 第 三 
个 字段 来 判断 两 个 节点 的 数据 中 心 或 机 架 的 相对 位 置 的 。 

而 DataCenterEndpointSnitch 允许 为 机 架 指 定 IP 子 网 ， 按 照 机 架 所 属 的 数据 中 
心 进行 分 组 。 

PropertyFileSnitch 人 允许 在 一 个 称 为 cassandra-rack.properties 的 属性 文件 中 指定 
IP 地 址 到 机 架 和 数据 中 心 的 映射 。 


Snitch 策略 类 位 于 org. apache.cassandra.locator fj, 





57. pi (sparse) 

在 关系 型 模型 中 ， 每 个 数据 类 型 ( 表 ) 的 每 列 都 必须 有 值 ， 即 使 有 些 时 候 这 个 值 是 
空 的 。 与 此 不 同 ，Cassandra 代表 着 一 种 稀 玻 的 或 “无 schema” 的 数据 模型 ， 这 意 
味 着 一 个 行 可 以 按照 需求 有 更 多 或 更 少 的 列 。 这 样 会 更 有 效率 。 比 如 一 个 1000 x 
1000 的 表格 ， 类 似 于 一 个 关系 型 的 表 。 如 果 很 多 单元 格 是 空 值 ， 那 么 这 种 存储 方式 
是 低 效率 的 。 





58. SSTable 

SSTable 是 Sorted String Table (有 序 字 符 串 表 ) 的 缩写 。 这 个 概念 是 从 Google 的 
Bigtable 里 借鉴 过 来 的 ，SSTable 是 Cassandra 中 数据 在 硬盘 上 的 存储 方式 。 这 是 一 
个 只 允许 追加 写 的 日 志 格 式 。 内 存 中 的 数据 表 (memtable) 是 写 入 SSTable 之 前 ， 
用 于 数据 缓冲 和 排序 的 。SSTable 允许 高 性 能 地 写 并 可 以 被 压 紧 。 


SSTable 是 不 可 更 改 的 。 一 旦 memtable 刷 写 到 磁盘 上 称 为 一 个 SSTable， 就 无 法 应 
用 更 改 了 ， 压 紧 操作 仅仅 改变 它们 在 磁盘 上 的 表现 形式 。 


要 将 数据 导入 或 导出 JavaScript 对 象 标 记 (JSOM)， 可 以 使 用 org.apache. 
cassandra.tools.SSTableImporter 类 和 SSTableExporter 类 。 








59. 阶段 (stage) 
作为 Cassandra 的 分 阶段 事件 驱动 架构 (SEDA) 的 一 部 分 ， 阶 段 是 一 个 工作 单位 的 
一 个 包装 。 一 个 单独 的 操作 可 以 流 经 多 个 阶段 ， 直 至 结束 ， 而 非 在 同一 个 线程 中 自 


始 至 终 。 


一 个 阶段 包含 到 达 事件 队列 、 事 件 处 理 器 和 相关 联 的 线程 地 。 阶 段 由 一 个 控制 
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器 所 管理 ， 它 决定 了 调度 和 线程 的 分 配 ，Cassandra 使 用 线程 池 java.util. 
concurrent.ExecutorService 实现 了 这 种 并 发 模型 。 要 查看 阶段 是 如 何 工作 的 ， 


可 以 看 org.apache.cassandra.concurrent.StageManager 类 。 


还 有 一 些 其 他 操作 也 作为 阶段 实现 了 ， 包 括 处 理 memtable 的 ColumnFamilyStore 
类 ， 和 StorageService 的 一 致 性 管理 器 。 

一 个 操作 可 以 在 一 个 线程 中 开始 ， 之 后 将 工作 移交 给 另 一 个 线程 。 这 个 移交 并 不 是 
直接 在 线程 之 间 ， 而 是 在 阶段 之 间 进 行 的 。 

参见 SEDA。 


60. 强 一 致 性 (strong consistency) 

对 于 读 操作 ， 强 一 致 性 意味 着 如 果 发 现 需要 进行 读 时 修复 ， 首 先进 行 读 时 修复 ， 然 
后 返回 结果 。 

61. 超级 列 (super column) 

超级 列 的 值 不 是 字符 串 ， 而 是 一 组 有 名 字 的 其 他 列 的 列表 ， 这 里 称 作 子 列 。 子 列 也 是 
有 序 的 ， 列 的 数量 没有 限制 。 超 级 列 和 一 般 列 的 不 同 还 在 于 它们 没有 关联 的 时 间 戳 。 
超级 列 是 非 递归 的 ， 也 就 是 说 ， 它 们 只 有 一 级 深度 。 超 级 列 只 能 存放 其 他 列 的 映射 ， 
而 不 能 存放 超级 列 的 映射 。 

超级 列 在 SuperColumn.java 中 定义 ， 这 个 类 实现 了 Icolumn 和 IColumn- 
Container 两 个 接口 。 这 些 接口 允许 进行 的 操作 包括 : 取出 超级 列 中 的 所 有 子 列 ， 
通过 名 字 取 出 一 个 子 列 ， 增 加 子 列 ， 删 除 子 列 ， 检 查 超级 列 中 子 列 的 数量 ， 一 级 检 
查 子 列 的 最 新 修改 时 间 。 

超级 列 是 Facebook 对 Google 的 Bigtable 的 数据 模型 的 一 个 改进 。 

参见 列 族 。 











62. Thrift 

Thrift 是 用 于 与 Cassandra 通信 的 RPC 客户 端的 名 字 。 它 可 以 静态 生成 一 个 接口 ， 
用 于 不 同 语言 的 序列 化 ， 包 括 C++, Java, Python, PHP, Ruby, Erlang, Perl, 
Haskell、C#、Cocoa、Smalltalk 和 OCaml。 正 是 这 个 机 制 允 许 使 用 任意 上 述 客户 端 
语言 来 与 Cassandra 交互 。 


Thrift 由 Facebook F 2007 年 4 月 实现 ， 并 在 2008 年 5 月 作为 一 个 旷 化 器 项 目 捐 给 
了 Apache。 截 止 到 本 书写 作 时 ，Thrift 很 可 能 会 被 更 新 更 活跃 的 Apache 项目 Avro 
所 取代 。Avro 的 另 一 个 优点 是 不 需要 静态 代码 生成 。 


你 可 以 在 该 项 目 主 页 了 解 Thrift 的 更 多 信息 : http://incubator.apache.org/thrift。 
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63. RHEE (timestamp) 


Cassandra 中 ， 列 值 的 时 间 惟 是 由 客户 端 提供 的 ， 所 以 客户 端的 时 钟 同 步 很 重要 。 时 
间 戳 从 传统 上 说 是 从 Unix 纪元 开始 时 〈1970 年 1 月 1 日 0 点 ) 算 起 的 毫秒 值 。 


64. Çk (token) 

环 上 的 每 个 节点 都 有 一 个 单独 的 令 牌 ， 用 于 标明 其 所 拥有 的 键 值 范围 。 根 据 环 上 前 
一 个 节点 的 令 牌 值 ， 你 可 以 指定 自己 的 令 牌 或 让 Cassandra 生成 一 个 。 令 牌 的 表示 
形式 由 分 区 器 的 类 型 决定 。 

对 于 随机 分 区 器 ， 令 牌 是 一 个 在 0~2” 的 证 书 ， 通 过 对 键 值 进 行 MD5 哈 希 而 得 。 
这 个 令 牌 位 于 org.apache.cassandra.dht.BigIntegerToken 类 。 

对 于 有 序 分 区 器 ， 令 牌 是 一 个 基于 键 值 的 UTF-8 字符 串 ， 位 于 org.apache. 


cassandra.dht.StringToken 类 。 

















Cassandra 中 的 令 牌 都 派生 自 org.apache.cassandra.dht.Token 25, 


65. 墓碑 (tombstone) 


Cassandra 并 不 会 在 删除 操作 之 后 立刻 删除 数据 。 相 反 ， 它 将 数据 标记 为 一 个 “ 莫 
碑 ”， 表 示 数 据 已 经 被 删除 ， 但 还 没 被 清空 。 之 后 ， 募 碑 可 以 传播 到 其 他 副本 之 上 。 


墓碑 会 在 主 压 紧 时 被 清理 掉 。 


66. 向 量 时 钟 (vector clock) 

向 量 时 钟 让 分 布 式 系 统 的 事件 可 以 成 为 部 分 因果 有 序 的 。 向 量 时 钟 保存 了 一 个 逻辑 
时 钟 的 数组 ， 每 个 对 应 一 个 进程 ， 每 个 进程 包含 一 个 时 钟 的 本 地 副本 。 为 了 保存 所 
有 进程 在 一 个 一 致 的 逻辑 状态 中 ， 一 个 进程 会 把 它 的 时 钟 发 送 给 其 他 进程 ， 然 后 后 
者 会 进行 更 新 。 为 了 保证 一 臻 性， 通常 要 遵从 下 列 步骤 的 某 些 形式 。 

所 有 时 钟 都 从 0 开始。 每 当 有 一 个 线程 经 历 了 一 个 事件 ， 它 的 时 钟 就 会 加 一 。 每 当 
一 个 进程 准备 发 送 一 条 消息 ， 也 被 看 做 是 一 个 事件 ， 也 会 让 时 钟 加 一 ， 然 后 将 整个 
向 量 与 消息 一 起 发 送 给 外 部 线程 。 每 次 一 个 进程 接收 一 条 消息 ， 也 会 记 为 一 个 事件 ， 
所 以 也 会 为 自己 的 时 钟 加 一 。 然 后 比较 它 的 向 量 和 从 外 部 进程 进入 的 消息 的 向 量 。 
它 会 使 用 比较 出 来 的 最 大 值 更 新 自己 的 时 钟 。 


一 个 向 量 时 钟 时 间 同 步 策 略 有 可 能 会 在 Cassandra 的 未 来 版 本 中 引入 。 
































67. 弱 一 致 性 (weak consistency) 


对 于 读 操作 ， 弱 一 致 性 通过 首先 返回 结果 ， 然 后 再 进行 必要 的 读 时 修复 ， 从 而 提升 
了 性 能 。 
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关于 作者 


Eben Hewitt 是 一 家 跨国 公司 的 应 用 架构 总 监 ， 负 责 系 统战 略 和 设计 工作 。 他 是 
Apache Cassandra 项 目的 一 位 文档 贡献 者 ， 同 时 也 是 多 本 技术 书籍 的 作者 ， 其 中 
包括 Java SOA Cbook (O'Reilly 出 版 ) 。 他 是 O'Reilly 的 97 Things Every Software 
Architect Should Know 的 合 著者 之 一 ， 也 是 多 本 软件 书籍 的 技术 审阅 者 。Eben 已 
经 在 IT 业 中 浆 荡 了 12 年 了 了 7， 设计 并 实现 过 多 个 领域 中 的 大 规模 分 布 式 系统 ， 涉 及 
零售 业 、 旅 游 、 政 府 和 互联 网 接 入 商 。 他 曾经 在 亚洲 和 美国 的 多 个 关于 Cassandra, 
SOA, REST 以 及 事件 驱动 架构 等 方面 的 业界 会 议 中 受 邀 进行 讲演 ， 并 就 上 述 话题 
接受 过 领先 的 业内 相关 网 站 的 多 次 访谈 。 你 可 以 在 Twitter 上 关注 Eben， 他 的 账号 


是 @ebenhewitt。 








大 于 封面 


《Cassandra 权威 指南 》 封 面 上 是 一 只 绥 带 鸟 。 是 件 形 目 、 王 纲 亚 科 的 一 种 食 虫 鸟 类 。 
它们 是 分 布 最 为 广泛 的 一 种 王 锅 亚 科 的 鸟 类 ， 从 撒哈拉 以 南 的 非洲 大 陆 到 东南 亚 ， 
以 及 很 多 太平 洋 岛 屿 上 都 有 分 布 。 大 多 数 绥 带 岛 是 留 鸟 ， 而 包括 日 本 绥 带 鸟 和 组 名 
在 内 的 其 他 绥 带 鸟 属于 候鸟。 


大 多 数 绥 带 岛 是 雌雄 二 态 的 ， 也 就 是 说 雌 岛 和 雄 鸟 的 外 观 有 较 大 差别 。 多 数 雌 绥 带 
岛 没 有 雄 鸟 那样 的 静 丽 羽毛 ， 雄 鸟 同 时 还 拥有 长 长 的 尾羽 ， 不 同 种 类 的 绥 带 岛 的 尾 
羽 也 有 所 差别 。 比 如 ， 雄 性 亚洲 绥 带 鸟 的 尾羽 长 度 能 达到 大 约 15 英寸 。 雌 性 绥 带 鸟 
据 信 会 根据 尾羽 的 长 度 选择 配偶 。 绥 带 岛 是 一 夫 一 妻 制 的 ， 这 让 它们 的 漂亮 的 颜色 
和 羽毛 显得 有 点 不 同 寻 常 ， 因 为 通常 这 种 强烈 的 性 征 展示 都 发 生 在 那些 非 一 夫 一 妻 
制 的 物种 身上 。 

绥 带 鸟 的 分 布 非常 广泛 ， 栖 息 地 包括 热带 草原 、 竹 林 、 雨 林 、 沙 叶 林 乃 至 种 植 园 。 
大 多 数 绥 带 鸟 都 依靠 它们 敏捷 的 反应 和 敏锐 的 视力 在 飞行 中 捕食 。 


封面 图 片 来 自 Cassell 的 Natural History 卷 四 。 封 面 字体 是 Adobe ITC Garamond, 
文本 字体 是 Linotype Birka， 而 标题 字体 是 Adobe Myriad Condensed， 代 码 字 体 是 
LucasFont 的 TheSansMonoCondensed, 
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最 前 沿 的 IT 类 电子 书 发 售 平台 


包子 出 版 的 时 代 已 经 来 临 。 在 许多 出 版 界 同行 还 在 犹 
驳 簿 得 的 时 候 ， 图 灵 社 区 已 经 采取 实际 行动 拥抱 这 个 
出 版 业 巨 变 。 作 为 国内 第 一 家 发 售 电子 图 书 的 IT 类 出 
版 商 ， 图 灵 社 区 目前 为 读者 提供 两 种 DRM-free 的 阅读 
体验 : 在 线 阅读 

































































































































































相 比 纸 质 书 ， 电 子 书 具 有 许多 明显 的 优势 。 它 不 仅 发 
布 快 ， 更 新 容易 ， 而 且 尽 可 能 采用 了 彩色 图 片 〈 即 使 
有 













































































的 书 纸 质 版 是 黑白 印刷 的 ) 。 读 者 还 可 以 方便 地 进 
行 搜索 、 剪 贴 、 复 制 和 打印 。 





























最 方便 的 开放 出 版 平台 


图 灵 社 区 向 读者 开放 在 线 写 作 功 能 ， 协 助 你 实现 自 出 
版 和 开源 出 版 的 梦想 。 利 用 “合集 ”功能 ， 你 就 能 联 
合 二 三 好 友 共 同 创 作 一 部 技术 参考 书 ， 以 免费 或 收费 
的 形式 提供 给 读者 。 (收费 形式 须 经 过 图 灵 社 区 立项 
评审 。) 这 极 大 地 降低 了 出 版 的 门槛 。 只 要 你 有 写作 
的 意愿 ， 图 灵 社 区 就 能 帮助 你 实现 这 个 梦想 。 成 熟 的 
书稿 ， 有 机 会 入 选 出 版 计划 ， 同 时 出 版 纸 质 书 。 








































































































































































































图 灵 社 区 引进 出 版 的 外 文 图 书 ， 都 将 在 立项 后 马上 在 
社区 公布 。 如 果 你 有 意 翻 译 哪 本 图 书 ， 欢 迎 你 来 社区 
申请 。 只 要 你 通过 试 译 的 考验 ， 即 可 签约 成 为 图 灵 的 
译 者 。 当 然 ， 要 想 成 功 地 完成 一 本 书 的 翻译 工作 ,是 
需要 有 坚强 的 妆 力 的 。 

















































































































欢迎 加 入 


R RIEK 






























































图 灵 社区 进一步 把 传统 出 版 流程 与 电子 书 出 版 业务 
紧密 结合 ， 目 前 已 实现 作 译 者 网 上 交 稿 、 编 辑 网 上 
审 稿 、 按 章 发 布 的 电子 出 版 模式 。 这 种 新 的 出 版 模 
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x, 我们 称 之 为 “敏捷 出 版 ”， 它 可 以 让 读者 以 较 
快 的 速度 了 解 到 国外 最 新 技术 图 书 的 内 容 ， 弥 补 以 
往 翻 译 版 技术 书 “ 出 版 即 过 时 ”的 缺憾 。 同 时 ， 敏 
捷 出 版 使 得 作 、 译 、 编 、 读 的 交流 更 为 方便 ,可 以 
提前 消灭 书稿 中 的 错误 ， 最 大 程度 地 保证 图 

的 质量 。 





































































































最 直接 的 读者 交流 平台 


在 图 灵 社 区 ， 你 可 以 十 分 方便 地 写作 文章 、 提 交 勘 
误 、 发 表 评论 ， 以 各 种 方式 与 作 译 者 、 编 辑 人 员 和 
其 他 读者 进行 交流 互动 。 提 交 勘 误 还 能 够 获 赠 社区 
银子 。 




























































































你 可 以 积极 参与 社区 经 常 开展 的 访谈 、 审 读 、 评 选 
等 多 种 活动 ， 赢 取 积 分 和 银子 ， 积 累 个 人 声望 。 





